数据倾斜处理日记1

最新推荐文章于 2022-11-11 10:00:00 发布

Qing_Ci_1

最新推荐文章于 2022-11-11 10:00:00 发布

阅读量138

点赞数

分类专栏： SQL优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53215123/article/details/116293640

版权

本文介绍了数据倾斜的两种情况，重点关注唯一值少的情况。问题源于sql中的join操作，关联条件存在大量重复值，导致数据严重倾斜。为解决此问题，提出了先聚合后关联的策略，通过提前对子查询进行聚合并统一关键关联条件的记录数，显著减少了计算负担，将运行时间从半小时降至4分钟。

摘要由CSDN通过智能技术生成

文章目录

前置知识

数据倾斜一般包括两种情况

一种是唯一值非常少，极少数值有非常多的记录值(唯一值少于几千)

一种是唯一值比较多，这个字段的某些值有远远多于其他值的记录数，但是它的占比也小于百分之一或千分之一

本文中的情况属于第一种
参考链接（数据倾斜原理及解决方案）

sql类型

spark-sql

根本问题

join关联条件有大量重复值

解决方案

对有大量重复值的表进行先聚合后关联

具体情况

在做一个取数需求的时候，在sql中一开始采取先把所有子查询明细联合，最外层select再进行聚合计算的策略。
代码逻辑大致如下

select
	items.item_id,
	count(distinct

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据倾斜处理日记1

sql类型spark-sql根本问题join关联条件有大量重复值解决方案对有大量重复值的表进行先聚合后关联具体情况一开始采取先把所有字段联合最终再进行聚合计算的策略left join关联字段为item_id，由于item_id再item子查询中取得的是唯一值，而在曝光表的子查询中中item_id会与许多shop_id组合，导致在join时发生严重数据倾斜，导致大量重复计算，一些工作节点承担了过大的运转负荷，运行时间超过半小时。具体措施对于每一个子查询，能提前聚合的尽量聚
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。