数据倾斜(一)之产生原因

最新推荐文章于 2023-07-25 17:21:35 发布

bigdata_wangzhe

最新推荐文章于 2023-07-25 17:21:35 发布

阅读量402

点赞数 1

分类专栏：大数据文章标签：大数据

本文链接：https://blog.csdn.net/bigdata_wangzhe/article/details/115680003

版权

大数据专栏收录该内容

31 篇文章 0 订阅

订阅专栏

数据倾斜产生原因概述

我们以Spark和Hive的使用场景为例。
他们在做数据运算的时候会涉及到，count distinct、group by、join on等操作，这些都会触发Shuffle动作。一旦触发Shuffle，所有相同key的值就会被拉到一个或几个Reducer节点上，容易发生单点计算问题，导致数据倾斜。
一般来说，数据倾斜原因有以下几方面：
key分布不均匀
业务数据本身的特性
建表时考虑不周
某些SQL语句本身就有数据倾斜
Shuffle与数据倾斜
Hadoop和Spark在Shuffle过程中产生数据倾斜的原理基本类似即数据不均匀。如下图
在这里插入图片描述
大部分数据倾斜的原理就类似于上图，很明了，因为数据分布不均匀，导致大量的数据分配到了一个节点。

数据本身与数据倾斜

我们举一个例子，就说数据默认值的设计吧，假设我们有两张表：
user（用户信息表）：userid，register_ip
ip（IP表）：ip，register_user_cnt

这可能是两个不同的人开发的数据表。如果我们的数据规范不太完善的话，会出现一种情况：
user表中的register_ip字段，如果获取不到这个信息，我们默认为null；
但是在ip表中，我们在统计这个值的时候，为了方便，我们把获取不到ip的用户，统一认为他们的ip为0。
两边其实都没有错的，但是一旦我们做关联了，这个任务会在做关联的阶段，也就是sql的on的阶段卡死。

业务逻辑与数据倾斜

数据往往和业务是强相关的，业务的场景直接影响到了数据的分布。
再举一个例子，比如就说订单场景吧，我们在某一天在北京和上海两个城市多了强力的推广，结果可能是这两个城市的订单量增长了10000%，其余城市的数据量不变。
然后我们要统计不同城市的订单情况，这样，一做group操作，可能直接就数据倾斜了。

bigdata_wangzhe

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据倾斜(一)之产生原因

数据倾斜产生原因概述我们以Spark和Hive的使用场景为例。他们在做数据运算的时候会涉及到，count distinct、group by、join on等操作，这些都会触发Shuffle动作。一旦触发Shuffle，所有相同key的值就会被拉到一个或几个Reducer节点上，容易发生单点计算问题，导致数据倾斜。一般来说，数据倾斜原因有以下几方面：key分布不均匀业务数据本身的特性建表时考虑不周某些SQL语句本身就有数据倾斜Shuffle与数据倾斜Hadoop和Spark在Shuffle
复制链接

扫一扫

专栏目录