kettle——处理缺失值

题目要求:

1.读取revenue.txt文件,新建一个转换命名为delete_missing_value,并添加“文本文件输入控件”、“字段选择控件”、“过滤记录控件”、“空操作控件”、“Excel输出控件”,完成对revenue.txt文件缺失值删除的操作,并将操作结果以Excel格式输出。(提示:revenue.txt文件中四个字段分别为Name、Sex、Pay、Area,其中Pay为整型,其余为字符串类型,操作时先删除缺失值较多的字段,再删除存在缺失值的记录)
2.读取people_survey.txt文件,新建一个转换命名为fill_missing_value,并添加“文本文件输入控件”、“过滤记录控件”、“空操作控件”、“替换NULL值控件”、“合并记录控件”、“字段选择控件”,完成对people_survey.txt文件缺失值填充的操作,并将操作结果以文本文件格式输出(要求字段和值格式对齐)。(提示:people_survey.txt文件中三个字段分别为userid、hours_per_week、workclass,其中hours_per_week为整型,其余为字符串类型,用均值44替换hours_per_week中的缺失值,用Private替换workclass中的缺失值)。

目录

一、删除缺失值

1、文本文件输入

2、字段选择

3、过滤记录

4、输出excel文件

5、运行

二、填充缺失值

1、添加文件

2、过滤记录

3、替换NULL值

4、合并记录

5、替换NULL值2

6、字段选择

7、Excel输出

8、运行并查看执行结果


一、删除缺失值

1、文本文件输入

①导入并增加文件

② 分隔符为’tab’,取消头部复选框

③ 获取字段并修改字段名称

2、字段选择

①获取字段

 ②移除‘sex’字段

3、过滤记录

设置过滤条件

4、输出excel文件

①设置输出到revenue_test.xls文件

 ②获取字段

5、运行

查看执行结果

查看revenue_test.xls文件

二、填充缺失值

1、添加文件

②分隔符采用tab,取消头部复选框

③获取字段

预览结果如下

2、过滤记录

3、替换NULL值

勾选“选择字段”并设置要替换的字段及值

4、合并记录

5、替换NULL值2

6、字段选择

①获取字段

②移除flagfield字段

7、Excel输出

①选择输出到的people_test.xls文件

②获取字段

8、运行并查看执行结果

在文件中查看

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值