5.1 数据去重

案例介绍
通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。

通过步骤将组件设置好:
在这里插入图片描述

在csv文件输入界面将所需文件导入并点击获取字段,通过预览来确定是否将文件获取成功
在这里插入图片描述
在唯一行处点击获取,可以把需要用来做比较的字段,一旦三个字段都相同就需要只保留其中之一
在这里插入图片描述
案例介绍:
通过Kettle工具,将文件people.txt中不完全重复的数据进行去重处理。
通过步骤设置好组件
在这里插入图片描述
在文本文件输入界面中将文件增添到选中的文件中
在这里插入图片描述
分隔符将分号删掉,点击旁边的InsertTab,将头部去掉
在这里插入图片描述
在字段界面,选择获取字段,然后把名称改成想要的名称:
在这里插入图片描述
预览记录:
在这里插入图片描述
在唯一值(哈希值)界面点击获取:
在这里插入图片描述
然后运行
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值