第五章——数据清洗与校验(案例四:填充缺失值)

1.源数据预览

  2.新建一个转换并按照下述新建好步骤然后用跳连接

 3.双击文本文件输入进行配置

点击浏览导入数据,之后点击增加,效果图如下

 单击内容选项卡;在清除分隔符处的默认分隔符;单击Insert TAB按钮,在分隔符处插入一个制表符;取消勾选头部

 单击字段选项卡;根据文件people_survey.txt文件的内容添加对应的字段名称,并指定数据类型

 点击预览查看数据是否抽取成功

  4.双击过滤记录进行配置

将过滤字段设置为workclass、过滤值设置为Private作为过滤条件;在发送true数据给步骤:下拉框中选择空操作;在发送false数据给步骤:下拉框中选择空操作(什么也不做)2

 5.双击替换NULL进行配置

勾选选择字段处的复选框,并在字段框添加字段为hours_per_week,值替换为44

  6.双击合并记录进行配置

在旧数据源:下拉框选择替换NULL值,新数据源:下拉框选择空操作(什么也不做)2;在匹配的关键字:部分,添加关键字段,即userid。

  7.双击替换NULL值 2进行配置

勾选选择字段处的复选框,并在字段框添加字段为workclass,值替换为Private

 8.双击字段选择进行配置

在移除选项卡处添加要移除的字段名称,这里移除的是字段flagfield。

 9.保存并运行,成功后截图如下

 10.查看缺失值是否已填充

单击字段选择控件,再单击执行结果窗口的Preview data选项卡,查看是否填充了文件people_survey.txt中的缺失值。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值