对文件people_survey.txt中的缺失值进行填充

1.打开kettle工具,创建转换

2.配置“文本文件输入”控件

单击“浏览”按钮,选择要填充缺失值的文件people_survey.txt。

单击“增加”按钮,将要填充的文件添加到“文本文件输入”控件中。

 单击“内容”选项卡,切换到“内容”选项卡界面

清楚分割符处的默认分割符“;”,单击Insert TAB 按钮,插入一个制表符,取消勾选“头部”复选框。

单击“字段”选项卡,切换“字段”选项卡界面。

根据文件people_survey.txt的内容添加对应的字段名称,并指定数据类型,在“去除空字符串方式”列时,所添加字段都应该选择“不去掉空格”(因为制表符是由多个空格组成)。

单击“预览记录”按钮,查看文件people_survey.txt的数据是否抽取到文本文件输入流

中,然后单击“关闭”->"确定“按钮,完成配置。 

3.配置“过滤记录”控件

双击“过滤记录”控件,进入“过滤记录”界面,

在“条件”处设置过滤条件,由预览可得:字段useruid为000016用户的hours_per_week(即每周工作时间字段)存在缺失值,而他的workclass字段值为Private,因此将过滤字段设置为workclass,过滤值设置为Private作为过滤条件,

在“发送true数据给步骤”中选择“空操作(什么也不做)”,在“发送false数据给步”中选择“空操作(什么也不做)2”

 单击“确定”按钮,完成配置。

4.配置“替换NULL值”控件

双击“替换NULL值”控件,进入“替换NULL值”界面

勾选“选择字段”复选框,并在“字段”框添加字段hours_per_week,值替换为44(44是字段为hours_per_week中所有值相加求的均值)

 5.配置“合并记录”控件

双击“合并记录”控件,进入“合并行”界面

在“旧数据源:”中选择“替换NULL值”,在“新数据源:”中选择“空操作(什么也不做)2,“在匹配关键字:”部分添加关键字段,即useried.

单击“确定”按钮,完成“合并记录”控件的配置。

6.配置“替换NULL值2”控件

双击“替换NULL值2”控件,进入界面,

勾选“选择字段”复选框,并在“字段”框添加字段workclass,值替换为Private。

 

7.配置“字段选择”控件

双击“字段选择”控件,进入“选择/改名值”界面

在“移除”选项卡界面添加要移除的字段名称,这里移除的是字段“flagfield

8.运行转换fill_missing_value

 

单击“字段选择”控件,再单击执行结果窗口Preview data选项卡,查看是否填充了文件people_survey.txt中的缺失值。 

以上内容均来自于黑马程序员编著的数据清洗。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值