Spark性能调优系列:(二)数据倾斜(Hive ETL预处理数据方案)

Hive ETL预处理数据方案

适用场景

   导致数据倾斜的是Hive表,如果Hive表中的数据本身分布不均匀(比如:某个key对应了100万数据,其他key只对应了100条数据),
而且业务场景需要频繁使用到Spark对Hive表执行某个分析操作,那么比较适用使用这种技术方案。

实现思路:

   评估是否可以通过Hive来进行数据预处理(即通过HiveETL预先对数据按照key进行聚合,或者是预先和其他表进行join),然后在Spark作业中针对的数据源就不是原来的Hive表了,而是预处理之后的Hive表。
   此时由于数据已经预先进行聚合或者join操作,那么Spark作业中也就不需要使用原先的shuffle类算子执行这类操作。

实现原理

    这种方案从根源上解决数据倾斜,因为彻底避免在Spark中执行shuffle类算子,那么肯定就不会有数据倾斜的问题,但这种方式属于治标不治本。
    毕竟数据本身就存在分布不均匀的问题,所有HiveETL中进行Group by或者join等shuffle操作时,还是会导致数据倾斜,导致Hive ETL速度很慢,只是把数据倾斜的发生提前到了HiveETL中,避免Spark程序发生数据倾斜而已。

优点

实现起来简单便捷,效果非常好,完全避免数据倾斜,Spark作业性能大幅度提升。

缺点    

治标不治本,Hive ETL中还是会发生数据倾斜。

实践经验    

    在一些Java系统与Spark结合使用的项目中,会出现Java代码频繁调用Spark作业的场景,而且对Spark作业的执行性能要求提高,比较适合使用这种方案。将数据倾斜提前到上游的HiveETL,每天仅执行一次,只有那一次是比较慢,之后每次Java调用Spark作业时,执行速度都很快,能够提供更好的用户体验。

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值