《数据清洗》 第五章 数据的清洗与检验

目录

1.对文件merge.csv进行完全去重

1.1数据准备

1.2打开kettle工具,新建转换

1.3配置“CSV文件输入”控件

1.4配置“唯一行(哈希值)”控件

1.5运行转换repeat_transform

2.对文件people_survey.txt中的缺失值进行填充

2.1打开kettle工具,创建转换

2.2配置“文本文件输入”控件

2.3配置“过滤记录”的控件

2.4配置“替换NULL值”控件

2.5配置“合并记录”控件

2.6配置“替换NULL值2”控件

2.7配置“字段选择”控件

2.8运行转换fill_missing_value



1.对文件merge.csv进行完全去重

1.1数据准备

1.2打开kettle工具,新建转换

创建转换repeat_transform,并添加“CSV文件输入”、“唯一行(哈希值)”以及hop跳连接线;

1.3配置“CSV文件输入”控件

进入“CSV文件输入”界面,选择要进行完全去重处理的CSV文件merge.csv,获取字段自动检索CSV文件

 预览查看CSV文件merge.csv的数据已成功加载到CSV文件输入流中

 

1.4配置“唯一行(哈希值)”控件

 进入“唯一值(哈希值)”控件,添加要去重的字段,完成“唯一行(哈希值)”控件的配置

1.5运行转换repeat_transform

运行创建的转换repeat_transform,实现消除CSV文件merge.csv中完全重复的数据

如图,CSV文件merge.csv中有2条数据与其他数据完成重复

CSV文件merge.csv中完全重复数据已被消除


2.对文件people_survey.txt中的缺失值进行填充

2.1打开kettle工具,创建转换

创建转换fill_missing_value,添加“文本文件输入”、“过滤记录”、“空操作”、“替换NULL值”、“合并记录”、“字段选择”控件及hop跳连接线

2.2配置“文本文件输入”控件

进入“文本文件输入”控件,选择要填充缺失值的文件people_survey.txt,添加到“文本文件输入”控件中

切换到“内容”选项卡界面,清除分隔符处的默认分隔符“;”,单击Inster TAB按钮,在分隔符处插入一个制表符,取消勾选“头部”复选框

 切换到“字段”选项卡界面,根据文件people_survey.txt的内容添加对应的字段名称,并指定数据类型,所添加字段选择“不去掉空格”

单击“预览记录”按钮,查看文件是否成功抽取到文本文件输入流中,查看效果

 

 完成“文本文件输入”控件的配置

2.3配置“过滤记录”的控件

进入“过滤记录”界面,将过滤字段设置为workclass,过滤值设置为Private作为过滤条件,发送“true”数据给给步骤:”下拉列表选择“空操作”控件中;在“发送false数据给步骤”:后的下拉列表选择空操作控件中,将workclass字段值不为Private的数据放在“空操作(什么也不做)2”控件中

完成“过滤记录”控件的配置

2.4配置“替换NULL值”控件

进入“替换NULL值”界面,勾选“选择字段”复选框,并在“字段”框添加字段hours_per_week,值替换为44

 完成“替换NULL值”控件的配置

2.5配置“合并记录”控件

进入“合并行(比较)”界面,在“旧源数据:”后下拉列表中选择“替换NULL值”,在新数据源中后的下拉列表中选择“空操作(什么也不做)2”;在匹配的关键字:部分添加关键字userid

完成“合并记录”控件的配置

2.6配置“替换NULL值2”控件

进入“替换NULL值”界面,勾选“选择字段”复选框,并在“字段”框添加字段为workclass,值替换为Private

完成“替换NULL值2”控件的配置

2.7配置“字段选择”控件

进入“选择/改名值”界面,在“移除”选项卡界面中添加要移除的字段flagfield

完成“字段选择”控件的配置

2.8运行转换fill_missing_value

运行创建的转换fill_missing_value,实现填充文件people_survey.txt中的缺失值

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值