数据的清洗与检验

本文介绍了如何利用Kettle工具进行数据清洗,包括两部分:一是通过创建转换repeat_transform实现CSV文件的去重,通过CSV文件输入、唯一行(哈希值)控件进行数据处理;二是创建fill_missing_value转换处理缺失值问题,通过文本文件输入、过滤记录、替换NULL值等控件完成缺失值填充。
摘要由CSDN通过智能技术生成

一、对文件进行去重

1、通过使用Kettle工具,创建一个转换repeat_transform,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。

2、双击“CSV文件输入”控件,进入“CSV文件输入”配置界面

单击【浏览】按钮,选择要进行完全去重处理的CSV文件merge.csv;再单击【获取字段】按钮,Kettle会自动检索CSV文件,并对文件中的字段类型、格式、长度、精度等属性进行分析。

 

3、双击“唯一行(哈希值)”控件,进入“唯一行(哈希值)”配置界面。

在“用来比较的字段”处,添加要去重的字段,这里可以单击【获取】按钮,获取要去重的字段。

 

4、运行工具

5、查看是否完全去重

选中“唯一行(哈希值)”控件,单击执行结果窗口的“Preview data”选项卡,查看是否消除CSV文件merge.csv中完全重复的数据</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值