目录
一.数据去重
数据去重又称重复数据的删除,通常指的是找出数据文件集合中重复的数据并将其除,只保存唯一的数据单元,从而消除冗余数据。通常,数据去重方法分为两种,分别是完全去重和不完全去重。
完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。
二.完全去重
1.打开Kettle工具,创建新转换
在转换中依次添加“csv文件输入”、“唯一行(哈希值)”控件,如下图:
2.配置“CSV文件输入”控件
1.双击控件打开配置界面,浏览添加需要去重的文件
2.勾选包含列头行(简易转换如果勾选了,将其取消)
3.点击下方获取字段,自动检索csv文件,并对字段类型等自动进行分析
4.点击确定,配置完成。
3.配置“唯一行(哈希值)”控件
1.双击控件进入配置页面,点击获取,自动获取字段
2.点击确定,配置完成
4.保存运行
运行结果如下:
三.缺失值填充
1.创建转换,添加控件
2.配置“文本文件输入”控件
1.双击控件进入配置页面,浏览要处理的文件,点击增加,如下图:
2.浏览记录查看缺失值,如下图:
3.点击内容选项进行下面的设置:
删除分隔符中的分号,点击右侧insert TAB添加制表符作为分割符
4.点击字段选项,获取字段
5.点击确定,完成配置
3.配置”过滤记录“控件
1.双击控件进入配置页面,添加过滤条件
在浏览数据时我们看到,16号的hours_per_week存在缺失值,而workclass为Private,所以我们可以将过滤字段设置为 workclass,如下图:
2.将workclass=Private的字段发送给空操作(什么也不做),不等于的发送给空操作(什么也不做)2。
3.点击确定,配置完成
4.配置“替换NULL值”控件
点击选择字段,在下方字段中添加hours_per_week,值替换为44,如下图:
5.配置“合并记录”控件
将新旧记录进行合并,添加匹配的关键字段userid,如下图:
6.配置“替换NULL值2”控件
双击进入配置页面,勾选选择字段,在下方字段中添加workclass,值替换为Private
7.配置“字段选择”控件
双击进入配置页面,选择移除选项,添加flagfield字段,如下图:
8.运行结果