kettle工具实现数据不完全去重
1). 使用kettle工具创建part_repeat_transform,并添加“文本文件输入”控件、“唯一行(哈希值)”控件以及hop跳连接线
2). 双击文本文件输入控件进入其界面,单击浏览,选择要去重的文件people.txt;单击增加;单击内容选项卡,进入其界面,清除分隔符“;”,并单击Insert TAB,取消勾选头部;单击字段选项卡,根据people.txt的内容添加对应字段名称,单击预览记录,点击确定完成配置,
3). 双击“唯一行(哈希值)”进入其界面;在“用来比较的字段”处添加要去重的字段,即Name,UserLevel,Phone字段
运行结果:
运行转换part_repeat_transform
从图中可以看出,文件中没有重复的数据,说明通过kettle工具实现了不完全重复数据的功能。