kettle数据的清理与检验

   一,数据去重

数据去重又称重复数据的删除,通常指的是找出数据文件集合中重复的数据并将其除,只保存唯一的数据单元,从而消除冗余数据。通常,数据去重方法分为两种,分别是完全去重和不完全去重。

完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。
二,完全去重

1,打开kettle工具新建转换

 配置csv文件输入控件

(1)点击浏览添加去重的文件

(2)选择包含列头行

 (3)点击下方获取字段,自动探索csv文件,并对字段类型等自动进行分析

 (4)点击确定

3.配置唯一行(哈希值)控件

(1)点击下方获取,自动获取字段

 

 (2)点击确定

4.保存运行

结果展示

 三.缺失值填充

1.建立以下控件

2.配置文件输入控件

(1)点击进入控件,浏览要处理的文件并点击增加

 

 (2)浏览处理记录查看缺失值

 (3)点击内容选项进行如下配置

删除分隔符中的分号,点击右侧insert TAB添加制表符作为分隔符

(4)点击字段获取,获取字段

 

 (5)点击确定

3配置过滤记录控件

(1)点击进入控件,添加过滤条件

 在浏览数据时我们看到,16号的hours_per_week存在缺失值,而workclass为Private

 所以我们可以将过滤字段设置为workclass,如下图:


 

(2)将workclass=private的字段发送给空操作

(3)点击确定

4.配置替换NULL值控件

在下方字段中添加hours-per-week,替换值换为44

 

 5.配置合并记录控件

6.配置替换NULL值2控件

 

 7.配置字段选择控件

 8.保存运行

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值