Hive--hive一种通用的上亿级别的去重方法

本文介绍了在处理2亿条数据去重问题时,三种不同的Hive操作方法,包括count(distinct uid)、group by以及row_number() over()。针对效率问题,提出了一种通用做法,即将数据按uid%5切分,运行5个独立任务,再通过union all合并,将原本3小时的任务降至0.5小时。这种方法提高了大数据场景下的处理速度。
摘要由CSDN通过智能技术生成

前些阵子在公司做项目遇到了一个问题,就是需要都行业中的所有品牌的uid进行去重的然后计数的操作。

数据量去完重复大概2个亿,去之前大概将近三个亿。

做法一:最原始的做法使用的是count(distingct uid)这个需要大概跑3个小时的任务。

做法二:使用group by去重,效果依然不好。

做法三:使用row_number() over(partition by uid order by uid desc) as rn ,然后取rn=1,这样也不行。

通用做法:将任务分成5份,即uid%5=0,1,2,3,4这几个任务去跑,然后进行union all和并即可。任务从三小时降到0.5小时。

代码:开启5个以下任务,uid%5=0,1,2,3,4 五种情况 ,写到wb_ad_brand_industry_count_temp1,2,3,4,5

#!/bin/bash
source /usr/local/jobclient/config/.hive_config.sh
source /usr/local/jobclient/lib/source $0 $1
source /usr/local/jobclient/demo/execute_modular.sh $work_log_notice

source ./mys
  • 3
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值