![](https://img-blog.csdnimg.cn/20210924182144461.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据分析与清洗
文章平均质量分 75
实战训练
抢我糖还想跑
这个作者很懒,什么都没留下…
展开
-
数据清洗概述
一、简介1、简介 大数据时代,必须经过清洗、分析、建模、可视化才能体现其价值,然后众多数据中总是存在很多“脏数据”,也就是不完整、不规范、不准确的数据,数据清洗就是指将“脏数据”洗掉,包括检查数据一致性,处理无效值和缺失值,从而提高数据质量。数据清洗(data cleaning)可以有多重表述方式,一般认为,数据清洗的含义就是检测和取出数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据和知识背景下的白噪声(1)一原创 2021-09-21 19:57:17 · 6570 阅读 · 0 评论 -
OpenRefine数据清洗实战
一、下载安装1、下载OpenRefine官网:http://OpenRefine.org2、安装OpenRefine解压后双击运行 openrefine.exe。如果电脑上没有Java环境,会自动跳转到浏览器下载Java界面点击 同意并开始免费下载,然后安装Java到这儿环境配置好了,重新双击 openrefine.exe 运行,会启动程序并自动跳转到浏览器OpenRefine主页面二、运行OpenRefine对数据查看、清洗、导出选择本地存储文件,以水利局输沙率文件作为今天的测试原创 2021-09-21 21:39:31 · 9179 阅读 · 1 评论 -
Pandas大数据清洗实战之一:安装与初识
一、基础1、简介pandas是Python中的一个数据分析和清洗的库,基于numpy构建的,在其中包含了大量的标准数据模型,提供了高效操作大型数据集所需要的工具。最早呢是被作为金融数据分析工具开发出来的,现在已经广泛应用于大数据分析的各个领域。2、安装与使用cmd中直接输入如下命令:pip install pandas安装完成后,在命令行中输入“pip list”,可查看pandas库是否安装,如下图按住那pandas库后,就可以在Python中调用该库实现数据的分析与清洗了3、pand原创 2021-09-22 12:42:04 · 2335 阅读 · 1 评论 -
Pandas大数据清洗实战之二:牛刀小试
1、数据准备csv是以纯文本形式存储的表格数据,接下来讲述使用pandas读取和操作csv中的数据首先准备csv文件,内容如下:white,red,blue,pink,black,green,animal1,2,3,4,5,6,cat2,3,6,1,2,3,dog1,2,5,3,7,6,ping2,3,4,6,2,1,mouse上述文件记录了动物的颜色数据,该文件保存成3.csv,即可使用pandas读取2、从CSV中读取数据(1)pandas读取CSV文件的方法在pandas中处理原创 2021-09-23 11:25:07 · 720 阅读 · 2 评论 -
Pandas大数据清洗实战之三:数据可视化
一、绘制折线图1、使用Series绘制折线图执行如下代码from pandas import DataFrame,Seriesimport pandas as pdimport numpy as npimport matplotlib.pyplot as plts=pd.Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10))s.plot()plt.show()首先导入pandas库、numpy库和matplotlib原创 2021-09-23 12:09:21 · 736 阅读 · 0 评论 -
Kettle大数据清洗实战之一:安装与初识
一、Kettle安装官网:http://forums.pentaho.com/,另外,由于Kettle是基于Java开发的,因此需要Java环境(jdk网址:http://www.oracle.com/technetwork/java/javase/downloads/index.htlm)1、下载安装并配置jdk1.下载,首先从官网下载jdk2.配置环境变量,“我的电脑”-“高级”-“环境变量”-“path”,添加Java的bin路径并用分好隔开3.配置classpath变量,在环境变量中新建c原创 2021-09-22 10:08:59 · 528 阅读 · 0 评论 -
Kettle大数据清洗实战之二:字段选择、连接表、过滤表
一、随机数的字段选择步骤:1.运行kettle,单击‘文件’,选择“新建”-“转换”选项,在“输入”的界面上选择“生成随机数”,在“转换”的界面上找到“增加常量”和“计算器”,将它们拖拽到右侧的工作区域中,并建立节点连接,流程如图所示2.双击“生成随机数”,在打开的对话框中设置“名称”为 x,“类型”为“随机数字”,如下图3.单击“确定”,在工作区域右击“生成随机数”图标,在弹出的快捷菜单上选择“改变开始复制的数量”,并修改数字为30,如下图4.双击“增加常量”图标,在弹出的对话框中设置“原创 2021-09-23 15:12:02 · 5061 阅读 · 0 评论 -
Kettle大数据清洗实战之三:连接操作MySQL
步骤:1.在MySQL数据库中建立test1,新建表xs,xs中建立字段xuehao、xingming、zhuanye、xingbie、chengji。将字段xuehao设置为主键,输入数据如下图2.运行Kettle,单击“文件”,选择“新建”-“转换”,在打开的界面中选择“表输入”和“文本文件输出”,拖拽到右侧工作区,并建立连接,如下图3.双击“表输入”,在弹出的对话框中单击“编辑”,建立Kettle与MySQL的连接,设置完成后单击测试,查看连接状况,如下图4.在“表输入”的SQL语句原创 2021-09-23 17:52:26 · 577 阅读 · 0 评论