Hive--hive一种通用的上亿级别的去重方法

最新推荐文章于 2023-07-03 14:25:28 发布

卷曲的葡萄藤

最新推荐文章于 2023-07-03 14:25:28 发布

阅读量3.5k

点赞数 3

分类专栏： Hive

本文链接：https://blog.csdn.net/weixin_39043567/article/details/100590578

版权

本文介绍了在处理2亿条数据去重问题时，三种不同的Hive操作方法，包括count(distinct uid)、group by以及row_number() over()。针对效率问题，提出了一种通用做法，即将数据按uid%5切分，运行5个独立任务，再通过union all合并，将原本3小时的任务降至0.5小时。这种方法提高了大数据场景下的处理速度。

摘要由CSDN通过智能技术生成

前些阵子在公司做项目遇到了一个问题，就是需要都行业中的所有品牌的uid进行去重的然后计数的操作。

数据量去完重复大概2个亿，去之前大概将近三个亿。

做法一：最原始的做法使用的是count(distingct uid)这个需要大概跑3个小时的任务。

做法二：使用group by去重，效果依然不好。

做法三：使用row_number() over(partition by uid order by uid desc) as rn ，然后取rn=1，这样也不行。

通用做法：将任务分成5份，即uid%5=0,1,2,3,4这几个任务去跑，然后进行union all和并即可。任务从三小时降到0.5小时。

代码：开启5个以下任务，uid%5=0,1,2,3,4 五种情况，写到wb_ad_brand_industry_count_temp1，2，3，4，5

#!/bin/bash
source /usr/local/jobclient/config/.hive_config.sh
source /usr/local/jobclient/lib/source $0 $1
source /usr/local/jobclient/demo/execute_modular.sh $work_log_notice

source ./mys

最低0.47元/天解锁文章

卷曲的葡萄藤

关注

3
点赞
踩
30

收藏

觉得还不错? 一键收藏
3
评论
Hive--hive一种通用的上亿级别的去重方法

前些阵子在公司做项目遇到了一个问题，就是需要都行业中的所有品牌的uid进行去重的然后计数的操作。数据量去完重复大概2个亿，去之前大概将近三个亿。做法一：最原始的做法使用的是count(distingct uid)这个需要大概跑3个小时的任务。做法二：使用group by去重，效果依然不好。做法三：使用row_number() over(partition by uid order ...
复制链接

扫一扫