1.源数据预览
2.打开kettle新建一个转换并添加下述步骤然后用跳连接
3.双击CSV文件输入进行配置
点击浏览导入文件,然后点击获取字段
最后点击预览看数据是否抽取进来
4.双击唯一行(哈希值)进行配置
在用来比较的字段处,添加要去重的字段,这里可以单击获取按钮,获取要去重的字段
5.保存运行,成功后截图如下
6.查看去重之后的数据
选中唯一行(哈希值)控件,单击执行结果窗口的Preview data选项卡,查看是否消除CSV文件merge.csv中完全重复的数据