题目:(1)对文件merge.csv进行完全去重
(2)对文件people_survey,txt.中的缺失值进行填充
1.对文件merge.csv进行完全去重
完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。
(1)打开Kettle工具,新建转换
使用Kettle工具创建一个转换,并添加“CSV文件输入”、“唯一行(哈希值)”控件以及Hop跳连接线结果如图:
(2)配置CSV文件输入控件
点击“预览”查看该文件是否加载到csv文件输入流中:
(3) 配置“唯一行(哈希值)”控件