数据倾斜及处理

最新推荐文章于 2024-08-06 10:22:43 发布

꧁gaoKuo꧂

最新推荐文章于 2024-08-06 10:22:43 发布

阅读量45

点赞数

分类专栏： ms 文章标签： java 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39606236/article/details/132626271

版权

ms 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文探讨了在数据访问和处理中遇到的数据倾斜问题，特别是在分治策略下，如统计词频时由于数据分布不均可能导致内存溢出。文章还提到，问题通常源于对数据来源的不了解，并提出通过业务无关的数据分类方法，如取模，来平衡数据处理。最后聚焦于大数据生态下的主要框架，如MapReduce和Spark的处理策略。

摘要由CSDN通过智能技术生成

只要对数据的访问、处理使用分治的思想，就会面临潜在的数据倾斜问题，严重的数据倾斜会导致任务执行缓慢甚至失败。

简单的数据查询来带的数据倾斜

比如说现在需要统计一张传统数据库表中的某个字段词频，按照每天一次统计，由于我们的应用内存受限，无法容纳一天全部的数据，所以我们采用分时段统计的方式，这是理所当然的，这时候数据倾斜问题就可能找到我们。

造成问题的原因往往是对于数据的分布不够了解，比如这张表的数据是由其它系统上传，那么其它系统大概率会选择凌晨上传，这会导致某几个小时内数据的占比格外的大，我们统计到这部分就可能出现内存溢出等风险。

解决方式往往是采用业务无关的方法给数据分类，比如对数据id进行取模，尽量使我们每一次处理的数据数量是大致相同的即可。

大数据生态下的数据倾斜

常用的大数据分析框架主要由MapReduce、spark、hive等，思路都差不多，最终都落到MapReduce上考虑就行；

未完成

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据倾斜及处理

比如说现在需要统计一张传统数据库表中的某个字段词频，按照每天一次统计，由于我们的应用内存受限，无法容纳一天全部的数据，所以我们采用分时段统计的方式，这是理所当然的，这时候数据倾斜问题就可能找到我们。造成问题的原因往往是对于数据的分布不够了解，比如这张表的数据是由其它系统上传，那么其它系统大概率会选择凌晨上传，这会导致某几个小时内数据的占比格外的大，我们统计到这部分就可能出现内存溢出等风险。只要对数据的访问、处理使用分治的思想，就会面临潜在的数据倾斜问题，严重的数据倾斜会导致任务执行缓慢甚至失败。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。