数据倾斜：row_number over优化（top数据倾斜）

最新推荐文章于 2024-09-24 14:32:00 发布

AmazingJadeWu

最新推荐文章于 2024-09-24 14:32:00 发布

阅读量3.8k

点赞数

分类专栏：大数据文章标签：大数据数据倾斜

本文链接：https://blog.csdn.net/u013668852/article/details/116295392

版权

针对大数据处理中出现的域名url数量过多导致的row_number() over 排序长尾问题，提出了一种优化策略。通过将url分配到随机的小组，先进行局部排序筛选出top候选，然后进行全局排序，有效避免了长尾效应。示例代码展示了如何实现这一优化方法，适用于全局sort求top场景。

摘要由CSDN通过智能技术生成

场景

求每个域名的top url，存在某几个域名的url数量过多（亿级别），导致整个任务的row_number() over 排序阶段出现长尾。

优化思路

row_number over 归根到底就是在域名分组的前提下进行全局排序，那么对该场景的问题进行抽象就是全局排序如何优化。
如果能在全局排序前先做一次局部排序，筛选出符合候选条件的候选项，再进行全局排序，将能有效的避免长尾。这让我想到了一个场景就是比赛机制，筛选出金银铜牌，从本质上是类似的，所以看看比赛的机制下，是如何做的，emm，其实就是分组，只是每个人作为独立的个体，只能分配到一个小组里。那么top url场景中，url就是比赛的最细粒度的个体，只需要先分组候选出top3，之后再全局top3，就能解决此问题。
所以重点就是：对每个url生成一个group_id, 如1000以内的随机数，让其分配到一个组中去，局部row_number 后，筛选出候选项，再全局row_number一次。这个场景也适合全局sort 求 top场景。

示例代码

对所有域名做了统一处理，也可以挑出热点key, 单独处理

DROP TABLE IF EXISTS ti.tmp_topurl_${date}_${hour};
DROP TABLE IF EXISTS ti.tmp_rank_${date}_${hour};

--Map 端部分聚合，相当于Combiner
SET hive.map.aggr = TRUE;
--有数据倾斜的时候进行负载均衡
SET hive.groupby.skewindata &#