一、对文件merge.csv进行完全去重
1.源数据预览
2.打开kettle新建一个转换并添加下述步骤然后用跳连接
3.双击CSV文件输入进行配置
点击浏览导入文件,然后点击获取字段
最后点击预览看数据是否抽取进来
4.双击唯一行(哈希值)进行配置
在用来比较的字段处,添加要去重的字段,这里可以单击获取按钮,获取要去重的字段
5.保存运行,成功后截图如下
6.查看去重之后的数据
选中唯一行(哈希值)控件,单击执行结果窗口的Preview data选项卡,查看是否消除CSV文件merge.csv中完全重复的数据
二、对文件people_survey.txt中的缺失值进行填充
1.数据预览
2.新建一个转换并按照下述新建好步骤然后用跳连接
3.双击文本文件输入进行配置
点击浏览导入数据,之后点击增加,效果图如下
单击内容选项卡;在清除分隔符处的默认分隔符;单击Insert TAB按钮,在分隔符处插入一个制表符;取消勾选头部
单击字段选项卡;根据文件people_survey.txt文件的内容添加对应的字段名称,并指定数据类型
点击预览查看数据是否抽取成功
4.双击过滤记录进行配置
将过滤字段设置为workclass、过滤值设置为Private作为过滤条件;在发送true数据给步骤:下拉框中选择空操作;在发送false数据给步骤:下拉框中选择空操作(什么也不做)2
5.双击替换NULL进行配置
勾选选择字段处的复选框,并在字段框添加字段为hours_per_week,值替换为44
6.双击合并记录进行配置
在旧数据源:下拉框选择替换NULL值,新数据源:下拉框选择空操作(什么也不做)2;在匹配的关键字:部分,添加关键字段,即userid。
7.双击替换NULL值 2进行配置
勾选选择字段处的复选框,并在字段框添加字段为workclass,值替换为Private
8.双击字段选择进行配置
在移除选项卡处添加要移除的字段名称,这里移除的是字段flagfield。
9.保存并运行,成功后截图如下
10.查看缺失值是否已填充
单击字段选择控件,再单击执行结果窗口的Preview data选项卡,查看是否填充了文件people_survey.txt中的缺失值。
三、总结
完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据,去重也是数据清洗的一个重要步骤。在数据挖掘中,面对的通常都是大型的数据库,它的属性有几十个甚至几百个,因为其中某个属性值的缺失而放弃大量其他的属性值,这种删除是对信息的极大浪费,所以产生了插补缺失值的思想与方法。