数据的清洗与检验--读书笔记

一.对文件merge.csv进行完全去重

1.创建转换repeat_transform,并添加控件及Hop跳连接线

2.配置"csv文件输入"控件

3.单击“预览”,查看CSV文件merge.csv的数据是否加载到CSV文件输入流中 

4. 进入“唯一值(哈希值)”界面,单击“获取”添加需要去重的字段

 5.单击转换工作区顶部的“运行”按钮,运行转换,实现消除CSV文件merge.csv中完全重复的数据

6.选中执行窗口的“唯一行(哈希值)”控件,单击执行窗口的Preview data选项卡,查看是否消除CSV文件merge.csv中完全重复的数据 

 二.对文件people_survey.txt中的缺失值进行填充

1.创建转换fill_missing_value,并添加控件及Hop跳连接线

2.配置“文本文件输入”控件

(1)单击“浏览”按钮选择要填充缺失值的文件;单击“增加”按钮将要填充的文件添加到“文本文件输入”控件中

(2)单击“内容”选项卡,切换到“内容”选项卡界面,清除分隔符处的默认分隔符“;”,单击Insert TAB按钮;取消勾选‘“头部”复选框(3)单击“字段”选项卡,切换到“字段”选项卡界面,根据文件people_survey.txt的内容添加对应的字段名称,并指定数据类型

(4)单击“预览记录”按钮,查看文件中的数据是否成功抽取到文本文件输入流中

 3.配置“过滤记录”控件

4.配置“替换NULL值”控件

 5. 配置“合并记录”控件

 6.配置“替换NULL值2”控件

7.配置“字段选择”控件

 8. 运行转换

(1)单击转换工作区顶部的“运行”按钮,运行转换,实现填充文件中的缺失值,

(2)单击“字段选择”控件,再单击执行结果窗口的Preview data选项卡,查看是否填充了文件中的缺失值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值