万字解决Flink|Spark|Hive 数据倾斜

最新推荐文章于 2024-11-11 20:35:54 发布

大数据兵工厂

最新推荐文章于 2024-11-11 20:35:54 发布

阅读量1k

点赞数 19

分类专栏：大数据企业级开发大数据文章标签：大数据 flink spark 面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nzgmn/article/details/135043457

版权

大数据同时被 2 个专栏收录

29 篇文章 15 订阅

订阅专栏

大数据企业级开发

4 篇文章 0 订阅

订阅专栏

本文深入探讨了Hive、Flink和Spark中数据倾斜的现象、原因及解决方案。Hive的数据倾斜表现为部分reduce任务延迟，可通过预聚合、调整配置等方法解决。Flink数据倾斜的迹象是反压和OOM，解决方法包括调整source并行度和使用两阶段聚合。Spark的数据倾斜解决策略包括Hive ETL预处理、过滤倾斜key和提高shuffle并行度。理解数据和业务是解决数据倾斜的关键。

摘要由CSDN通过智能技术生成

前言

此篇主要总结到Hive,Flink,Spark出现数据倾斜的表现，原因和解决办法。首先会让大家认识到不同框架或者计算引擎处理倾斜的方案。最后你会发现计算框架只是“异曲”，文末总结才是“同工之妙”。点击收藏与分享，工作和涨薪用得到！！！

数据倾斜

数据倾斜最笼统概念就是数据的分布不平衡，有些地方数据多，有些地方数据少。在计算过程中有些地方数据早早地处理完了，有些地方数据迟迟没有处理完成，造成整个处理流程迟迟没有结束，这就是最直接数据倾斜的表现。

Hive

Hive数据倾斜表现

就是单说hive自身的MR引擎：发现所有的map task全部完成，并且99%的reduce task完成，只剩下一个或者少数几个reduce task一直在执行，这种情况下一般都是发生了数据倾斜。说白了就是Hive的数据倾斜本质上是MapReduce的数据倾斜。

Hive数据倾斜的原因

在MapReduce编程模型中十分常见，大量相同的key被分配到一个reduce里，造成一个reduce任务累死

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。