kettle案例5.1.2--数据去重---不完全去重

该博客介绍了如何使用Kettle工具进行数据去重处理,特别是针对不完全重复的数据。通过创建转换part_repeat_transform,配置文本文件输入和唯一行(哈希值)控件,设置比较字段,最后验证去重效果,成功消除了people.txt文件中的不完全重复记录。
摘要由CSDN通过智能技术生成

kettle案例5.1.2–数据去重—不完全去重

数据清洗过程中,所有字段值都相等的重复值是一定要剔除的。根据不同的业务场景,有时还需要选取其中若干字段进行去重操作。

案例介绍

通过Kettle工具,将文件people.txt中不完全重复的数据进行去重处理。

数据准备

在这里插入图片描述

1.打开Kettle工具,创建转换

通过使用Kettle工具,创建一个转换part_repeat_transform,并添加“文本文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。

在这里插入图片描述

2.配置文本文件输入控件

双击“文本文件输入”控件,进入“文本文件输入”配置界面。

单击【浏览】按钮,选择要去重的文件people.txt;单击【增加】按钮,将要去重的文件people.txt添加到转换part_repeat_transform中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值