![](https://img-blog.csdnimg.cn/20210924200502599.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据实战
文章平均质量分 68
正在更新----------保姆级教程,巨巨巨详细(看不懂请打我),以实操为根基,深度演示Hadoop、Spark集群部署、Spark调度与管理、Spark SQL、数据清洗、数据抽取等
抢我糖还想跑
这个作者很懒,什么都没留下…
展开
-
Spark大数据实战之一:环境配置
1.1 运行环境说明1.1.1 软硬件环境 主机操作系统:Windows10 64位 处理器:Intel®Core™i7-6800K CPU 3 40GHZ 内存:16G 虚原创 2021-09-15 18:24:18 · 322 阅读 · 0 评论 -
Spark大数据实战之二:安装Hadoop
1、克隆并启动虚拟机第1步,若master已开启,首先将其关闭第2步,在左侧导航栏中,右键单击master客户机,选择“管理”-“克隆”选项,打开“克隆虚拟机向导”,单击下一步第3步,配置克隆源,单击下一步第4步,配置克隆类型,选择“创建完整克隆”,单击下一步第5步,配置克隆出的虚拟机名称与位置,名称设置为slave1,存放地址默认第6步,如法炮制,克隆出来虚拟机slave2,如下图第7步,分别在每台虚拟机页面中单击“开启此虚拟机”,启动三台虚拟机2、网络基本配置第1步,配置三原创 2021-09-17 19:04:51 · 380 阅读 · 0 评论 -
Spark大数据实战之三:Hadoop配置
一、Hadoop基础配置第1步,下载安装包网址:http://archive.apache.org/dist/hadoop/common/hadoop-2.5.2/第2步,移动到lala主目录下,并解压解压语句:tar -xvf hadoop-2.5.2.tar.gz解压后如下图所示:第3步,配置 hadoop-env.sh打开hadoop-env.sh,配置JDK路径gedit /home/lala/hadoop-2.5.2/etc/hadoop/hadoop-env.sh在原创 2021-09-21 00:53:08 · 969 阅读 · 0 评论 -
Spark大数据实战之四:Scala安装
1、下载解压scala压缩包去官网https://www.scala-lang.org/download/2.10.4.html下载scala与jdk版本是相匹配的,如果jdk版本过低,解压配置完环境变量后,测试scala -version可能会出现如下问题:意思是说jdk版本过低,需要更换更高版本或者下载较低版本的scala下载完毕后拖拽到lala用户目录下,执行如下语句进行解压tar -zvxf scala-2.10.4.tgz2、配置系统文件执行如下语句,打开.bash_prof原创 2021-10-01 19:49:43 · 301 阅读 · 2 评论 -
Spark大数据实战之五:Spark安装
1、下载解压spark安装包Apache官网下载Spark,拖拽到master节点上lala用户目录下,解压https://archive.apache.org/dist/spark/spark-1.4.0/执行如下语句进行解压缩tar -zvxf spark-1.4.0-bin-hadoop2.4.tgz2、配置Spark-env.sh(1) 进入spark-1.4.0-bin-hadoop2.4/conf,复制其中的spark-env.sh.template并另存为该目录下的spar原创 2021-10-01 20:20:04 · 372 阅读 · 0 评论 -
matplotlib可视化实战之一:Numpy基础初识
Numpy库1、安装与测试windows中安装,直接进入cmd命令,运行 pip install numpy,安装完后输入 import numpy,如果没报错,说明安装成功,如下图实际运行过程中,建议在引用numpy时候,输入如下代码import numpy as np将numpy 用 np代替,提高diamante可读性和便捷性2、numpy的使用(1)创建数组在numpy库中创建数组可采用如下语句:numpy.array该语句表示通过引用numpy库创建了一个ndarray对原创 2021-09-28 12:43:17 · 271 阅读 · 0 评论 -
matplotlib可视化实战之二:matplotlib初识
matplotlib1、测试在python环境中,输入如下代码,如果不报错则表示安装成功import matplotlibimport matplotlib.pyplot as plt2、运行在python中输入如下代码,测试生成的matplotlib图形import matplotlib.pyplot as pltplt.plot([1,2,3])plt.ylabel('some numbers')plt.show()运行上述语句得到如下结果3、pyplot库matplo原创 2021-09-28 18:18:22 · 381 阅读 · 0 评论 -
matplotlib可视化实战之三:可视化绘图
一、绘制线性图形执行如下代码import matplotlib.pyplot as pltdataX=[1,2,3,4]dataY=[2,4,4,2]plt.plot(dataX,dataY)plt.title("Draw straight line")plt.xlabel("x")plt.ylabel("y")plt.show()上述语句绘制了一条直线,形状由x和y坐标值决定,运行该程序得到如下结果二、绘制柱状图形执行如下代码import matplotlib.pyplot原创 2021-09-28 21:38:26 · 305 阅读 · 0 评论 -
Kettle数据抽取实战之一:文本文件抽取
步骤:1.运行Kettle后在菜单栏中单击“文件”菜单项,选择“新建”,选择“转换”选项2.在打开的界面选择“输入”-“文本文件输入”,移动到工作区3.本地新建文本文件test.txt,内容如下id;name;card;sex;age1;张三;0001;M;23;2;李四;0002;M;24;34;王五;0003;M;22;56;赵六;0004;M;21;4.双击“文本文件输入”,进入设置界面,添加test.txt文件,如下图5.将“文件类型”设置为“CSV”,设置“分隔符”原创 2021-09-27 19:30:28 · 2702 阅读 · 0 评论 -
Kettle数据抽取实战之二:CSV文件抽取
步骤:1.准备一个CSV文件,如下图,21380行数据2.运行Kettle后在菜单栏中单击“文件”菜单项,选择“新建”,选择“转换”选项,打开“输入”-“CSV文件输入”,如下图3.双击“CSV文件输入”图标,在文件名中添加CSV文件,打开的对话框中单击“获取字段”按钮,自动获得CSV文件各列表头,如下图4.在打开的界面中选择“输出”-“Excel输出”选项,并将其拖动到屏幕中间,同时选择“CSV文件输入”和“Excel输出”图标,右击,选择“新建节点连接”,如下图5.双击“Excel输原创 2021-09-27 19:57:01 · 898 阅读 · 0 评论 -
Kettle数据抽取实战之三:JSON文件抽取
步骤:1.准备一个test.js的JSON文件,内容如下{"data":[{"name":"Java编程技术","description":"讲述Java程序开发的知识"}]}2.在Kettle中新建“转换”,在输入中选择“自定义常量数据”和JSON input,建立节点连接,如下图3.双击“自定义变量数据”图标,设置元数据为json,设置类型为String,如下图4.选择“数据”选项,手动设置JSON内容,如下图5.双击JSON input图标,在“文件”选项、“字段”选项中按下图设置原创 2021-09-27 20:31:45 · 2236 阅读 · 0 评论 -
Kettle数据抽取实战之四:网页数据抽取
1.运行Kettle,在菜单栏中单击“文件”选项,在弹出的下拉菜单中选择“新建”-“转换”选项,在打开的界面中选择“输入”-“生成记录”选项,在“查询”中选择“HTTP client”选项,在“输入”中选择“Get data form XML”选项,在“转换”中选择“字段选择”选项,将它们拖拽到中间工作区域,并建立及诶单链接,生成界面如下图2.双击打开“生成记录”对话框,在“名称”列输入“url”,在“类型”列输入“String”,在“值”列输入网址:https://services.odata.org原创 2021-09-27 20:54:34 · 3615 阅读 · 4 评论 -
Kettle大数据清洗实战之一:安装与初识
一、Kettle安装官网:http://forums.pentaho.com/,另外,由于Kettle是基于Java开发的,因此需要Java环境(jdk网址:http://www.oracle.com/technetwork/java/javase/downloads/index.htlm)1、下载安装并配置jdk1.下载,首先从官网下载jdk2.配置环境变量,“我的电脑”-“高级”-“环境变量”-“path”,添加Java的bin路径并用分好隔开3.配置classpath变量,在环境变量中新建c原创 2021-09-22 10:08:59 · 528 阅读 · 0 评论 -
Kettle大数据清洗实战之二:字段选择、连接表、过滤表
一、随机数的字段选择步骤:1.运行kettle,单击‘文件’,选择“新建”-“转换”选项,在“输入”的界面上选择“生成随机数”,在“转换”的界面上找到“增加常量”和“计算器”,将它们拖拽到右侧的工作区域中,并建立节点连接,流程如图所示2.双击“生成随机数”,在打开的对话框中设置“名称”为 x,“类型”为“随机数字”,如下图3.单击“确定”,在工作区域右击“生成随机数”图标,在弹出的快捷菜单上选择“改变开始复制的数量”,并修改数字为30,如下图4.双击“增加常量”图标,在弹出的对话框中设置“原创 2021-09-23 15:12:02 · 5061 阅读 · 0 评论 -
Kettle大数据清洗实战之三:连接操作MySQL
步骤:1.在MySQL数据库中建立test1,新建表xs,xs中建立字段xuehao、xingming、zhuanye、xingbie、chengji。将字段xuehao设置为主键,输入数据如下图2.运行Kettle,单击“文件”,选择“新建”-“转换”,在打开的界面中选择“表输入”和“文本文件输出”,拖拽到右侧工作区,并建立连接,如下图3.双击“表输入”,在弹出的对话框中单击“编辑”,建立Kettle与MySQL的连接,设置完成后单击测试,查看连接状况,如下图4.在“表输入”的SQL语句原创 2021-09-23 17:52:26 · 577 阅读 · 0 评论 -
Pandas大数据清洗实战之一:安装与初识
一、基础1、简介pandas是Python中的一个数据分析和清洗的库,基于numpy构建的,在其中包含了大量的标准数据模型,提供了高效操作大型数据集所需要的工具。最早呢是被作为金融数据分析工具开发出来的,现在已经广泛应用于大数据分析的各个领域。2、安装与使用cmd中直接输入如下命令:pip install pandas安装完成后,在命令行中输入“pip list”,可查看pandas库是否安装,如下图按住那pandas库后,就可以在Python中调用该库实现数据的分析与清洗了3、pand原创 2021-09-22 12:42:04 · 2335 阅读 · 1 评论 -
Pandas大数据清洗实战之二:牛刀小试
1、数据准备csv是以纯文本形式存储的表格数据,接下来讲述使用pandas读取和操作csv中的数据首先准备csv文件,内容如下:white,red,blue,pink,black,green,animal1,2,3,4,5,6,cat2,3,6,1,2,3,dog1,2,5,3,7,6,ping2,3,4,6,2,1,mouse上述文件记录了动物的颜色数据,该文件保存成3.csv,即可使用pandas读取2、从CSV中读取数据(1)pandas读取CSV文件的方法在pandas中处理原创 2021-09-23 11:25:07 · 720 阅读 · 2 评论 -
Pandas大数据清洗实战之三:数据可视化
一、绘制折线图1、使用Series绘制折线图执行如下代码from pandas import DataFrame,Seriesimport pandas as pdimport numpy as npimport matplotlib.pyplot as plts=pd.Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10))s.plot()plt.show()首先导入pandas库、numpy库和matplotlib原创 2021-09-23 12:09:21 · 736 阅读 · 0 评论 -
OpenRefine数据清洗实战
一、下载安装1、下载OpenRefine官网:http://OpenRefine.org2、安装OpenRefine解压后双击运行 openrefine.exe。如果电脑上没有Java环境,会自动跳转到浏览器下载Java界面点击 同意并开始免费下载,然后安装Java到这儿环境配置好了,重新双击 openrefine.exe 运行,会启动程序并自动跳转到浏览器OpenRefine主页面二、运行OpenRefine对数据查看、清洗、导出选择本地存储文件,以水利局输沙率文件作为今天的测试原创 2021-09-21 21:39:31 · 9179 阅读 · 1 评论 -
数据清洗概述
一、简介1、简介 大数据时代,必须经过清洗、分析、建模、可视化才能体现其价值,然后众多数据中总是存在很多“脏数据”,也就是不完整、不规范、不准确的数据,数据清洗就是指将“脏数据”洗掉,包括检查数据一致性,处理无效值和缺失值,从而提高数据质量。数据清洗(data cleaning)可以有多重表述方式,一般认为,数据清洗的含义就是检测和取出数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据和知识背景下的白噪声(1)一原创 2021-09-21 19:57:17 · 6570 阅读 · 0 评论