kettle案例5.1.2–数据去重—不完全去重 数据清洗过程中,所有字段值都相等的重复值是一定要剔除的。根据不同的业务场景,有时还需要选取其中若干字段进行去重操作。 案例介绍 通过Kettle工具,将文件people.txt中不完全重复的数据进行去重处理。 数据准备 1.打开Kettle工具,创建转换 通过使用Kettle工具,创建一个转换part_repeat_transform,并添加“文本文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。 2.配置文本文件输入控件 双击“文本文件输入”控件,进入“文本文件输入”配置界面。 单击【浏览】按钮,选择要去重的文件people.txt;单击【增加】按钮,将要去重的文件people.txt添加到转换part_repeat_transform中。