1.文件的完全去重
打开kettle创建一个转换并命名为repeat_transform。添加"CSV文件输入”和“唯一行(哈希值)”控件。如下图。
双击“CSV文件输入”进入界面,单击“浏览”选择所要处理的文件。单击“获取字段”,kettle将自动检索csv文件,并对文件中的字段类型、格式、长度、精度等属性进行分析。如下图
单击“预览”查看处理的文件是否加载到csv文件输入流中,如果出现以下见面则加载成功。
点击“确定”完成“csv文件输入”控件的配置。
双击“唯一行(哈希值)”控件进入界面。单击“获取”添加所要去重的字段。如下图
点击“确定”完成该控件的配置。
运行都出现已完成即可。如下图