问题背景
数据清洗过程中,所有字段值都相等的重复值是一定要剔除的。根据不同的业务场景,有时还需要选取其中若干字段进行去重操作。
任务目标
将下面这份用户访问网站的数据文件people.txt中的数据中对同一个用户的数据进行去重。
可知在数据文件中有四个字段,分别为姓名,用户水平,电话号码,访问时间。因为同一个用户可能在不同的时间访问,故去重时只需要对前三个字段进行哈希判断。
实践
一,创建转换
二,”文本文件输入“控件的配置
1,”文件“选项卡的配置
2,”内容“选项卡的配置
3,”字段“选项卡的配置
三,”唯一值(哈希值)“控件的配置
四,结果对比
原数据
去重后的数据
注意:进行不完全去除是应合理选择字段,否则可能造成数据丢失的情况。