一.对文件merge.csv进行完全去重
1.创建转换repeat_transform,并添加控件及Hop跳连接线
2.配置"csv文件输入"控件
3.单击“预览”,查看CSV文件merge.csv的数据是否加载到CSV文件输入流中
4. 进入“唯一值(哈希值)”界面,单击“获取”添加需要去重的字段
5.单击转换工作区顶部的“运行”按钮,运行转换,实现消除CSV文件merge.csv中完全重复的数据
6.选中执行窗口的“唯一行(哈希值)”控件,单击执行窗口的Preview data选项卡,查看是否消除CSV文件merge.csv中完全重复的数据
二.对文件people_survey.txt中的缺失值进行填充
1.创建转换fill_missing_value,并添加控件及Hop跳连接线
2.配置“文本文件输入”控件
(1)单击“浏览”按钮选择要填充缺失值的文件;单击“增加”按钮将要填充的文件添加到“文本文件输入”控件中
(2)单击“内容”选项卡,切换到“内容”选项卡界面,清除分隔符处的默认分隔符“;”,单击Insert TAB按钮;取消勾选‘“头部”复选框(3)单击“字段”选项卡,切换到“字段”选项卡界面,根据文件people_survey.txt的内容添加对应的字段名称,并指定数据类型
(4)单击“预览记录”按钮,查看文件中的数据是否成功抽取到文本文件输入流中
3.配置“过滤记录”控件
4.配置“替换NULL值”控件
5. 配置“合并记录”控件
6.配置“替换NULL值2”控件
7.配置“字段选择”控件
8. 运行转换
(1)单击转换工作区顶部的“运行”按钮,运行转换,实现填充文件中的缺失值,
(2)单击“字段选择”控件,再单击执行结果窗口的Preview data选项卡,查看是否填充了文件中的缺失值