![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习
carroll18
你想要拥有你从未有过的东西,你必须去做你从未做过的事情。
展开
-
【HBase】JAVA API操作HBase
文章目录JAVA API 操作HBase1 连接到HBase的服务2 抽取工具类3 写一个测试的模板类4 Namespace的CRUD4.1 list_namespace4.2 create_namespace4.3 list_namespace_tables4.4 修改namespace4.5 删除namespace5 Table的CRUD5.1 建表5.2 查询表中所有列簇5.3 修改表5.4 删除表中的列簇5.5 修改列簇的属性5.6 删除表6 Table的DML操作6.1 HBaseUtils6.2原创 2020-06-09 13:14:45 · 676 阅读 · 1 评论 -
【HBase】Hbase Shell相关操作全集
文章目录HBase的DDL语法1 help2 namespace2.1 关于namespace的常用命令2.2 list_namespace2.3 create_namespace2.4 describe_namespace2.5 alter_namespace2.6 list_namespace_tables2.7 drop_namespace3 table3.1 关于表的常见命令3.2 create3.3 list3.3 describe/desc3.4 alter3.5 exists3.6 Drop/原创 2020-06-09 13:11:04 · 396 阅读 · 0 评论 -
【Hbase】HBase相关知识助你快速入门
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase是原创 2020-06-08 22:19:02 · 507 阅读 · 0 评论 -
【Spark】Spark Streaming基础知识
Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。原创 2020-06-07 15:04:42 · 295 阅读 · 0 评论 -
【Spark】RDD、DataFrame、DataSet互相转换(面试重点)
在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)原创 2020-06-07 14:11:45 · 766 阅读 · 0 评论 -
【Spark】Spark SQL简介
文章目录什么是Spark SQLSpark SQL的特点什么是DataFrame什么是DataSet什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark原创 2020-06-07 11:40:54 · 339 阅读 · 0 评论 -
【Spark】数据读取与保存(MySQL)
文章目录添加依赖建表获取数据存储数据Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件;文件系统分为:本地文件系统、HDFS、HBASE以及数据库。添加依赖<!--mysql依赖的jar包--> <dependency> <groupId>mysql</groupId> <artifactId&g原创 2020-06-07 11:23:02 · 640 阅读 · 0 评论 -
【Spark】RDD的依赖关系
文章目录Spark Lineage(血统)窄依赖宽依赖DAG任务划分Spark Lineage(血统)Lineage利用内存加快数据加载,在其它的In-Memory类数据库或Cache类系统中也有实现。Spark的主要区别在于它采用血统(Lineage)来时实现分布式运算环境下的数据容错性(节点失效、数据丢失)问题。RDD Lineage被称为RDD运算图或RDD依赖关系图,是RDD所有父RDD的图。它是在RDD上执行transformations函数并创建逻辑执行计划(logical executi原创 2020-06-07 09:21:43 · 354 阅读 · 0 评论 -
【Spark】Spark中RDD基础知识总结
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。RDD(弹性分布式数据集),Spark计算的基石,为用户屏蔽了底层对数据的复杂抽象和处理,为用户提供了一组方便的数据转换与求值方法。原创 2020-06-06 16:11:52 · 583 阅读 · 0 评论 -
【Spark】Action与Transformation常用算子总结
Transformation算子RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。这种设计让Spark更加有效率地运行。转换含义map(func)返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成filter(func)返回一个新的RDD,该RDD由经过func函数计算后返回值为true的输入原创 2020-06-06 16:08:34 · 198 阅读 · 0 评论 -
【Spark】Spark简介与基础知识
Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目,Spark是基于内存计算的大数据并行计算框架。除了扩展了广泛使用MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark 适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算,Spark 使我们可以简单而低耗地把各种处理流程整合在一起原创 2020-06-06 11:57:29 · 252 阅读 · 0 评论 -
少年的你电影评论爬取和分析实战
文章目录导包爬取数据读取数据存入数据库SnowNLP进行情感分析jieba分词进行数据可视化导包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlineimport requestsfrom lxml import etree爬取数据# 首页 https:...原创 2020-02-29 16:20:03 · 1106 阅读 · 1 评论 -
天池工业蒸汽量预测实战
导包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline#可视化库Seabon,提供了一个绘制统计图形的高级接口import seaborn as sns#回归from sklearn.linear_model import LinearRegression,...原创 2020-02-29 13:15:38 · 2837 阅读 · 1 评论 -
新型肺炎数据爬取与分析实战
文章目录导包爬取数据数据清洗数据分析数据可视化DataFrame数据存入MySQL数据库将数据存成CSV/XLSX 文件DataFrame数据存成csv文件DataFrame数据存成xlsx文件导包import requestsimport jsonimport pandas as pd爬取数据#爬取数据#json.loads()是用来读取字符串的,即,可以把文件打开,用readl...原创 2020-02-29 12:35:28 · 971 阅读 · 0 评论 -
matplotlib
图片的灰度化处理灰度化处理就是将一幅色彩图像转化为灰度图像的过程。彩色图像分为R,G,B三个分量,分别显示出红绿蓝等各种颜色,灰度化就是使彩色的R,G,B分量相等的过程。灰度值大的像素点比较亮(像素值最大为255,为白色),反之比较暗(像素最下为0,为黑色)。最大值法将彩色图像中的三分量亮度的最大值作为灰度图的灰度值。平均值法将彩色图像中的三分量亮度求平均得到一个灰度值。加权平均法...原创 2020-02-25 18:20:38 · 295 阅读 · 0 评论 -
Scipy
Scipy简介Scipy依赖于Numpy(np.dot(nd1,nd2))Scipy提供了真正的矩阵Scipy包含的功能:最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理、图像处理、常微分方程求解器等Scipy是高端科学计算工具包 matlab == python+numpy+scipy+pandas+matplotlibScipy由一些特定功能的子模块组成...原创 2020-02-25 18:19:42 · 843 阅读 · 2 评论 -
numpy库快速入门与基础知识
快捷键B 在一个代码单元下面插入一行,A 上面插入一行运行代码单元:Ctrl + Enter、Alt + Enter、Shift + Enter删除代码单元格:双击d代码自动补全: tab 键numpy常用函数的使用平均值:mean最大值:max最小值:min标准差:std方差:var求多少次幂:power加法:add减法:subtract乘法:multiply除法...原创 2020-02-20 21:50:12 · 711 阅读 · 0 评论 -
pandas库的入门与必备知识
pandas库–数据分析必备的库pandas 熊猫 python data anlysis lib ----->pandaspip install pandas安装就可以使用pandas基于numpypandas中两个常用的类:Series,DataFramepython进行数据分析数据分析都使用什么软件?excel、SPSS、SASexcel操作很简单数据分析,批量数据查...原创 2020-02-16 15:08:13 · 727 阅读 · 0 评论 -
Spark生成RDD----随手记
生成RDD的方式使用 sc.textFile(数据源) ,生成RDD例如: val lines:RDD[String] = sc.textFile(ars(0)) val rdd1 = sc.textFile("hdfs://zookeeper1:9000/input") rdd1.collectval rdd2 = sc.parellel...原创 2019-12-26 20:02:16 · 309 阅读 · 0 评论 -
Python把字典类型写入到csv文件
怎么把字典类型写到CSV文件???import csvwith open('topic_clound.csv', 'w') as f: [f.write('{0} {1}\n'.format(key, value)) for key, value in Dist.items()]有道无术,术尚可求,有术无道,止于术。如有其它问题,欢迎大家留言,我们一起讨论,一起学...原创 2019-12-13 21:29:48 · 4243 阅读 · 0 评论 -
Python 安装包超时报错问题解决方案
python安装库时,超时报错如下pip install jiebaCollecting jieba Downloading https://files.pythonhosted.org/packages/71/46/c6f9179f73b818d5827202ad1c4a94e371a29473b7f043b736b4dab6b8cd/jieba-0.39.zip (7.3MB) ...原创 2019-12-13 16:26:15 · 1261 阅读 · 0 评论 -
Hadoop 2.x 伪分布式部署【亲测可用】
目录0.搭建环境1.安装JDK2.Hadoop的部署安装3.Hadoop的配置4.Hadoop的使用0.搭建环境 centos 7 hadoop 2.6.1 jdk 1.8(如需相关软件安装包,可以评论区留言)1.安装JDK(如果已有jdk环境,可以跳过这一步,但是要注意记得jdk的安装路径)下载完成JDK和Hadoop的源...原创 2019-12-01 01:08:39 · 399 阅读 · 1 评论 -
【亲测可用】Linux环境下搭建最新版Hadoop 3.1.3版本的真集群环境
目录搭建环境:一、前期准备1.基础准备2.服务器功能规划(提前规划好,有利于我们后面配置文件的修改和搭建)3.搭建第一台虚拟机的Hadoop环境4.克隆虚拟机5.配置虚拟机之间的映射(三台虚拟机都需要配置)6.设置SSH无密码登录7.启动hadoop集群(1)启动HDFS(2)启动YARN(3)查看对应主机的服务是否启动(4)浏览器查看页面这...原创 2019-11-03 03:10:04 · 5988 阅读 · 15 评论