【图文详细】数据倾斜

最新推荐文章于 2021-11-25 09:00:00 发布

谦卑t

最新推荐文章于 2021-11-25 09:00:00 发布

阅读量542

点赞数

分类专栏： Hive 文章标签：数据倾斜

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42246689/article/details/84777738

版权

Hive 专栏收录该内容

41 篇文章 3 订阅

订阅专栏

1、什么是数据倾斜？

由于数据分配不均匀，造成数据大量集中到一点，造成数据热点

2、Hadoop框架的特点

A、不怕数据大，怕数据倾斜

B、Jobs 数比较多的作业运行效率相对比较低，如子查询比较多

C、 sum,count,max,min 等聚集函数，通常不会有数据倾斜问题

3、主要表现

任务进度长时间维持在99%或者100%附近，查看任务监控页面，，发现只有少量 reduce 子任务未完成，因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大，通常达到好几倍之多，最长时间远大于平均时长。

4、容易数据倾斜情况

A、group by 不和聚集函数搭配使用的时候

B、count(distinct)，在数据量大的情况下，容易数据倾斜，因为 count(distinct)是按 group by 字段分组，按 distinct 字段排序 C、小表关联超大表 join

5、产生数据倾斜的原因：

A：key 分布不均匀

B：业务数据本身的特性

C：建表考虑不周全

D：某些 HQL 语句本身就存在数据倾斜

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
【图文详细】数据倾斜

1、什么是数据倾斜？由于数据分配不均匀，造成数据大量集中到一点，造成数据热点 2、Hadoop框架的特点 A、不怕数据大，怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低，如子查询比较多 C、 sum,count,max,min 等聚集函数，通常不会有数据倾斜问题 3、主要表现任务进度长时间维持在99%或者100%附近，查看任务监控页面，...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。