案例介绍
通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。
通过步骤将组件设置好:
在csv文件输入界面将所需文件导入并点击获取字段,通过预览来确定是否将文件获取成功
在唯一行处点击获取,可以把需要用来做比较的字段,一旦三个字段都相同就需要只保留其中之一
案例介绍:
通过Kettle工具,将文件people.txt中不完全重复的数据进行去重处理。
通过步骤设置好组件
在文本文件输入界面中将文件增添到选中的文件中
分隔符将分号删掉,点击旁边的InsertTab,将头部去掉
在字段界面,选择获取字段,然后把名称改成想要的名称:
预览记录:
在唯一值(哈希值)界面点击获取:
然后运行