一,数据去重
数据去重又称重复数据的删除,通常指的是找出数据文件集合中重复的数据并将其除,只保存唯一的数据单元,从而消除冗余数据。通常,数据去重方法分为两种,分别是完全去重和不完全去重。
完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。
二,完全去重
1,打开kettle工具新建转换
配置csv文件输入控件
(1)点击浏览添加去重的文件
(2)选择包含列头行
(3)点击下方获取字段,自动探索csv文件,并对字段类型等自动进行分析
(4)点击确定
3.配置唯一行(哈希值)控件
(1)点击下方获取,自动获取字段
(2)点击确定
4.保存运行
结果展示
三.缺失值填充
1.建立以下控件
2.配置文件输入控件
(1)点击进入控件,浏览要处理的文件并点击增加
(2)浏览处理记录查看缺失值
(3)点击内容选项进行如下配置
删除分隔符中的分号,点击右侧insert TAB添加制表符作为分隔符
(4)点击字段获取,获取字段
(5)点击确定
3配置过滤记录控件
(1)点击进入控件,添加过滤条件
在浏览数据时我们看到,16号的hours_per_week存在缺失值,而workclass为Private
所以我们可以将过滤字段设置为workclass,如下图:
(2)将workclass=private的字段发送给空操作
(3)点击确定
4.配置替换NULL值控件
在下方字段中添加hours-per-week,替换值换为44
5.配置合并记录控件
6.配置替换NULL值2控件
7.配置字段选择控件
8.保存运行