hive的性能优化

本文详细介绍了Hive的性能优化,包括计算数据优化、计算步骤优化和计算资源优化三个方面。计算数据优化着重解决Mapper和Reduce阶段的数据倾斜问题,如MapJoin、先Group by再Join等策略。计算步骤优化则通过保持join key一致、使用多路插入等方式减少任务数量。计算资源优化涉及调整Mapper和Reduce的instance个数,以减少执行时间和资源消耗。
摘要由CSDN通过智能技术生成

1、计算数据优化

计算数据优化主要有两种思路,一种是减少处理数据量;一种是解决数据倾斜。数据倾斜一般可以分为三种:

  •  Mapper阶段数据倾斜
  • Join阶段数据倾斜
  • Reduce阶段数据倾斜

1.1 Mapper阶段数据倾斜

主要有两种方式:

  • 可以修改读取数据的表的任务,最后插入数据时按照均衡的key值重新分布。也就是在最后加上distribute by ***
  • 如果Mapper的任务数比较少,比如200以内,可以考虑增加Mapper的任务数,从而减少单个任务的处理数据量和执行时间。

1.2  Join阶段数据倾斜

       是最常见的数据倾斜,按照表的大小和join方式的不同分别有多种处理方式。

1.2.1 Mapjoin

作用:

  • mapjoin可以把小表全部读入到内存,然后发送到大表所在的服务器处理,所有的逻辑都在map端完成,不需要reduce端从而避免倾斜。

适用场景:

  • 大表inner join小表
  • 大表left outer join小表
  • 小表right outer join大表

不适用场景:

  • 小表left outer join大表
  • 大表right outer join小表
  • 小表full outer join大表

限制:

  • hive小表默认大小不能超过25M,可以调整hive.mapjoin.smalltable.filesize来
  • hive 0.7版本以后,可以通过设置set hive.auto.convert.join = true 自动优化。 

'''

set hive.auto.convert.join = true

'''

使用mapjoin,只有map,没有reduce任务

 

1.2.2 Mapjoin+left join

作用:

  • 主要是为了解决小表在left outer join左侧从而无法直接使用mapjoin的问题。通过”小表 left outer join(小表 mapjoin 大表)”这样的方式来实现优化。

适用场景:

  • 小表left outer join大表
  • 大表right outer join小表

1.2.3  先group by再mapjoin

作用:

  • 先把某个大表按照关联key做group by,来减少关联时的数据量,然后把group by的结果当作mapjoin的小表再做关联。

适用场景:

  • 大表a左关联/内关联大表b,其中大表b的join key的distinct值数量比较少。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值