mysql数据倾斜_Hive SQL 数据倾斜总结

最新推荐文章于 2021-12-03 11:11:10 发布

成楚旸

最新推荐文章于 2021-12-03 11:11:10 发布

阅读量467

点赞数

文章标签： mysql数据倾斜

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31488273/article/details/114861646

版权

在海量数据下的数据查询中，数据倾斜是一个很恐怖的场景。常常看似很普通的数据查询，运行了几个小时也没有结果，其原因往往是发生了数据倾斜。如果真对数据倾斜采取相应的解决方法，那么查询效率将会大大提高。所以，分析数据倾斜是一件相当有意义的任务。本文总结不同情况下的数据倾斜，并分别给出解决方法。

数据倾斜

数据倾斜的实质，是hadoop在mr过程中，对key分发不均匀，导致某些节点上的任务明显比其他节点多，结果就是hadoop的多数节点空闲，而少数节点不停在运行。这样就大大降低了任务执行的效率，延长了执行时间。

数据倾斜主要由两种原因造成。一种是数据本身热点和非热点差异很大，存在长尾。比如10亿条的数据，大部分都属于少量的key，而其他大部分key都只占很少的数据量。这样在分发key的过程中，大量相同key的数据将会被集中到少量节点，从而造成数据倾斜。这种情况下，需要提前确定热点数据和非热点数据，分开处理。

另外一种造成数据倾斜的原因，是在join过程中，表之间的关联的key造成的。下面重点分析这种情况.

Join中的数据倾斜

有两种情况的join会造成数据倾斜，最常见的是大表和小表(作为从表)的join，这种情况下，大表中大量的key因为找不到小表中的匹配而分发不均匀。这种情况下，需对小表使用Mapjoin，将小表提前写入内存，并将join操作提前到map端执行，从而避免数据倾斜。

select /*+mapjoin(b)*/

a.c2,

b.c3

from

(select c1, c2 from t_large)a

left join

(select c1, c3 from t_small)b

on a.c1 = b.c1

另一种情况是当表中空值过多，在分发key的时候，空值聚集造成长尾。这种情况可以将空值处理成随机值，避免被分发至一处。

select ...

from

(select * from t_large_1)a

left join

(select * from t_large_2)b

on coalsece(a.id, rang()*9999) = b.id

-- coalsece方法处理a.id为null的情况

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
mysql数据倾斜_Hive SQL 数据倾斜总结

在海量数据下的数据查询中，数据倾斜是一个很恐怖的场景。常常看似很普通的数据查询，运行了几个小时也没有结果，其原因往往是发生了数据倾斜。如果真对数据倾斜采取相应的解决方法，那么查询效率将会大大提高。所以，分析数据倾斜是一件相当有意义的任务。本文总结不同情况下的数据倾斜，并分别给出解决方法。数据倾斜数据倾斜的实质，是hadoop在mr过程中，对key分发不均匀，导致某些节点上的任务明显比其他节点多，结...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。