1.打开kettle工具,创建转换
2.配置“文本文件输入”控件
单击“浏览”按钮,选择要填充缺失值的文件people_survey.txt。
单击“增加”按钮,将要填充的文件添加到“文本文件输入”控件中。
单击“内容”选项卡,切换到“内容”选项卡界面
清楚分割符处的默认分割符“;”,单击Insert TAB 按钮,插入一个制表符,取消勾选“头部”复选框。
单击“字段”选项卡,切换“字段”选项卡界面。
根据文件people_survey.txt的内容添加对应的字段名称,并指定数据类型,在“去除空字符串方式”列时,所添加字段都应该选择“不去掉空格”(因为制表符是由多个空格组成)。
单击“预览记录”按钮,查看文件people_survey.txt的数据是否抽取到文本文件输入流
中,然后单击“关闭”->"确定“按钮,完成配置。
3.配置“过滤记录”控件
双击“过滤记录”控件,进入“过滤记录”界面,
在“条件”处设置过滤条件,由预览可得:字段useruid为000016用户的hours_per_week(即每周工作时间字段)存在缺失值,而他的workclass字段值为Private,因此将过滤字段设置为workclass,过滤值设置为Private作为过滤条件,
在“发送true数据给步骤”中选择“空操作(什么也不做)”,在“发送false数据给步”中选择“空操作(什么也不做)2”
单击“确定”按钮,完成配置。
4.配置“替换NULL值”控件
双击“替换NULL值”控件,进入“替换NULL值”界面
勾选“选择字段”复选框,并在“字段”框添加字段hours_per_week,值替换为44(44是字段为hours_per_week中所有值相加求的均值)
5.配置“合并记录”控件
双击“合并记录”控件,进入“合并行”界面
在“旧数据源:”中选择“替换NULL值”,在“新数据源:”中选择“空操作(什么也不做)2,“在匹配关键字:”部分添加关键字段,即useried.
单击“确定”按钮,完成“合并记录”控件的配置。
6.配置“替换NULL值2”控件
双击“替换NULL值2”控件,进入界面,
勾选“选择字段”复选框,并在“字段”框添加字段workclass,值替换为Private。
7.配置“字段选择”控件
双击“字段选择”控件,进入“选择/改名值”界面
在“移除”选项卡界面添加要移除的字段名称,这里移除的是字段“flagfield
8.运行转换fill_missing_value
单击“字段选择”控件,再单击执行结果窗口Preview data选项卡,查看是否填充了文件people_survey.txt中的缺失值。
以上内容均来自于黑马程序员编著的数据清洗。