5.1.2 不完全去重

问题背景

        数据清洗过程中,所有字段值都相等的重复值是一定要剔除的。根据不同的业务场景,有时还需要选取其中若干字段进行去重操作。

任务目标

        将下面这份用户访问网站的数据文件people.txt中的数据中对同一个用户的数据进行去重。

        可知在数据文件中有四个字段,分别为姓名,用户水平,电话号码,访问时间。因为同一个用户可能在不同的时间访问,故去重时只需要对前三个字段进行哈希判断。

实践

一,创建转换

二,”文本文件输入“控件的配置

        1,”文件“选项卡的配置

         2,”内容“选项卡的配置

         3,”字段“选项卡的配置

 三,”唯一值(哈希值)“控件的配置

 四,结果对比

        原数据

        去重后的数据

 

 注意:进行不完全去除是应合理选择字段,否则可能造成数据丢失的情况。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值