目录
2.对文件people_survey.txt.中的缺失值进行填充
本文章使用的数据文件为《数据清洗》(黑马程序员编著)教材配套资源
1.对文件merge.csv进行完全去重
(1)数据准备
本次使用的数据文件名为merge.csv,其中包含9条记录,三个属性(姓名、性别,所在城市),其内容如下图:
(2)创建转换
使用Kettle工具创建一个转换(保存可修改转换名称),并添加“csv文件输入”控件、“排序记录”控件、“去除重复记录”控件以及Hop跳连接线,效果如下图:
(3)配置csv文件输入控件
双击“csv文件输入"控件进入其配置界面,单击“浏览”选择要进行完全去重处理的merge.csv文件,选择完成之后单击“获取字段”,Kettle会自动检索该csv文件,并对文件中的字段类型、格式、长度、精度等属性进行分析:
最后可点击“预览”查看该文件是否加载到csv文件输入流中:
(4)配置“排序记录”控件
使用“去除重复记录”控件之前需要对记录进行排序。