数据倾斜:row_number over优化(top数据倾斜)

场景

求每个域名的top url,存在某几个域名的url数量过多(亿级别),导致整个任务的row_number() over 排序阶段出现长尾。

优化思路

row_number over 归根到底就是在域名分组的前提下进行全局排序,那么对该场景的问题进行抽象就是 全局排序如何优化。
如果能在全局排序前先做一次局部排序,筛选出符合候选条件的候选项,再进行全局排序,将能有效的避免长尾。这让我想到了一个场景就是比赛机制,筛选出金银铜牌,从本质上是类似的,所以看看比赛的机制下,是如何做的,emm,其实就是分组,只是每个人作为独立的个体,只能分配到一个小组里。那么top url场景中,url就是比赛的最细粒度的个体,只需要先分组候选出top3,之后再全局top3,就能解决此问题。
所以重点就是:对每个url生成一个group_id, 如1000以内的随机数,让其分配到一个组中去,局部row_number 后,筛选出候选项,再全局row_number一次。这个场景也适合全局sort 求 top场景。

示例代码

对所有域名做了统一处理,也可以挑出热点key, 单独处理

DROP TABLE IF EXISTS ti.tmp_topurl_${date}_${hour};
DROP TABLE IF EXISTS ti.tmp_rank_${date}_${hour};

--Map 端部分聚合,相当于Combiner
SET hive.map.aggr = TRUE;
--有数据倾斜的时候进行负载均衡
SET hive.groupby.skewindata &#
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据倾斜是指在使用row_number函数进行排序时,某些频道的数据量过大导致计算速度变慢。解决数据倾斜的方法有多种,其中一种是使用随机数来分散数据。具体做法是将频道的ID与一个0到分区数之间的随机数相加,得到新的频道ID,然后再进行排序计算。这样可以将数据均匀地分散到多个分区中,从而解决数据倾斜的问题。另一种常用的解决方案是在使用row_number函数时,将数据进行优化。可以通过对查询语句进行调整,使用子查询和分区操作来提高查询效率。例如,可以使用row_number函数在每个频道分组内根据时间进行排序,然后再查询每个频道下第一次出现的用户。这样可以避免在全局范围内进行排序,提高查询速度。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [Hive ROW_NUMBER TopN 性能优化](https://blog.csdn.net/SunnyYoona/article/details/129094825)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *3* [spark sql 使用row_number 出现oom](https://blog.csdn.net/alitech2017/article/details/130619671)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值