Spark项目实战-数据倾斜解决方案之聚合源数据

最新推荐文章于 2020-11-18 14:33:17 发布

Anbang713

最新推荐文章于 2020-11-18 14:33:17 发布

阅读量361

点赞数

文章标签：数据倾斜

本文链接：https://blog.csdn.net/Anbang713/article/details/82858258

版权

大数据/Spark/项目实战专栏收录该内容

32 篇文章 1 订阅

订阅专栏

数据倾斜的解决跟之前讲解的性能调优，有一点异曲同工之妙。

性能调优，其实调了半天，最有效、最直接、最简单的方式就是加资源，加并行度，注意RDD架构（复用同一个RDD，加上cache缓存）。而shuffle、jvm等都是调优次要的。

数据倾斜问题最直接、最有效、最简单的方案就是：聚合源数据和过滤导致倾斜的key。

一、聚合源数据

我们在Spark做一些聚合的操作groupByKey、reduceByKey，其实就是拿到每个key对应的values或者对每个key对应的values执行一定的计算。现在这些操作，比如groupByKey和reduceByKey都是在spark作业中执行的。

而spark作业的数据来源，通常是哪里呢？90%的情况下，数据来源都是hive表（hdfs，大数据分布式存储系统）。有了spark以后，hive比较适合做什么事情？hive就是适合做离线的，晚上凌晨跑的ETL（extract transform load，数据的采集、清洗、导入），从而去形成一个完整的hive中的数据仓库，我们可以简单理解数据仓库就是一堆表。

spark作业的源表其实通常情况下来说也是通过某些hive etl生成的。hive etl可能是晚上凌晨在那儿跑，今天跑昨天的数据。而数据倾斜，某个key对应的80万数据，某些key对应几百条，某些key对应几十条。

对key进行group，在spark中拿到key=sessionid，values<Iterable>。hive etl中直接对key进行了聚合，那么也就意味着每个key就只对应一条数据。在spark中就不需要再去执行groupByKey+map这种操作了。直接对每个key对应的values字符串，map操作，进行你需要的操作即可。 spark中可能对这个操作就不需要执行shffule操作了，也就根本不可能导致数据倾斜。或者是对每个key在hive etl中进行聚合，对所有values聚合一下，不一定是拼接起来，可能是直接进行计算。

聚合源数据的另一个思路：我们可能没有办法对每个key就聚合出来一条数据，那么也可以做一个妥协，对每个key对应的数据，有好几个粒度，比如10万条里面包含了几个城市、几天、几个地区的数据，现在放粗粒度。直接就按照城市粒度，做一下聚合，几个城市，几天、几个地区粒度的数据，都给聚合起来。总之尽量去聚合，减少每个key对应的数量，也许聚合到比较粗的粒度之后，原先有10万数据量的key，现在只有1万数据量。减轻数据倾斜的现象和问题。

二、过滤导致倾斜的key

如果你能够接受某些数据，在spark作业中直接就摒弃掉，不使用。比如说总共有100万个key，只有2个key是数据量达到10万的，其他所有的key对应的数量都是几十。这个时候，我们自己可以去取舍，如果业务和需求可以理解和接受的话，在你从hive表查询源数据的时候，直接在sql中用where条件，过滤掉某几个key。那么这几个原先有大量数据，会导致数据倾斜的key，被过滤掉之后，那么在spark作业中自然就不会发生数据倾斜了。