Spark性能调优系列：（二）数据倾斜（Hive ETL预处理数据方案）

最新推荐文章于 2024-04-27 04:27:41 发布

Mr Cao

最新推荐文章于 2024-04-27 04:27:41 发布

阅读量682

点赞数 1

分类专栏：大数据 spark 文章标签： Spark性能调优

本文链接：https://blog.csdn.net/qq1021979964/article/details/103147312

版权

大数据同时被 2 个专栏收录

61 篇文章 5 订阅

订阅专栏

spark

28 篇文章 3 订阅

订阅专栏

Hive ETL预处理数据方案

适用场景

   导致数据倾斜的是Hive表，如果Hive表中的数据本身分布不均匀（比如：某个key对应了100万数据，其他key只对应了100条数据），
而且业务场景需要频繁使用到Spark对Hive表执行某个分析操作，那么比较适用使用这种技术方案。

实现思路：

   评估是否可以通过Hive来进行数据预处理（即通过HiveETL预先对数据按照key进行聚合，或者是预先和其他表进行join），然后在Spark作业中针对的数据源就不是原来的Hive表了，而是预处理之后的Hive表。
   此时由于数据已经预先进行聚合或者join操作，那么Spark作业中也就不需要使用原先的shuffle类算子执行这类操作。

实现原理

    这种方案从根源上解决数据倾斜，因为彻底避免在Spark中执行shuffle类算子，那么肯定就不会有数据倾斜的问题，但这种方式属于治标不治本。
    毕竟数据本身就存在分布不均匀的问题，所有HiveETL中进行Group by或者join等shuffle操作时，还是会导致数据倾斜，导致Hive ETL速度很慢，只是把数据倾斜的发生提前到了HiveETL中，避免Spark程序发生数据倾斜而已。

优点

实现起来简单便捷，效果非常好，完全避免数据倾斜，Spark作业性能大幅度提升。

缺点

治标不治本，Hive ETL中还是会发生数据倾斜。

实践经验

    在一些Java系统与Spark结合使用的项目中，会出现Java代码频繁调用Spark作业的场景，而且对Spark作业的执行性能要求提高，比较适合使用这种方案。将数据倾斜提前到上游的HiveETL，每天仅执行一次，只有那一次是比较慢，之后每次Java调用Spark作业时，执行速度都很快，能够提供更好的用户体验。