Hive优化

最新推荐文章于 2024-09-27 20:00:00 发布

原创最新推荐文章于 2024-09-27 20:00:00 发布 · 122 阅读

CC 4.0 BY-SA版权

本文详细介绍了Hive性能优化的多种策略，包括mapsidejoin、多表join与where结合使用、groupby数据倾斜处理、countdistinct优化、字段数量与切片大小的关系、JVM重用、指定严格模式以及关闭推测执行机制等，旨在帮助读者提升Hive查询效率。

1.map side join：
将小表进行缓存，这样子就可以有效的减少MapReduce的数量从而提高计算效率。要求小表需要放在join的左侧。默认缓存的内存大小是25M
2.多表join与where同时出现
当进行多表的join操作的时候，如果出现了where查询，那么需要先利用子查询进行条件查询然后再进行join，这么做的目的是为了减少中间产生的数据量和计算量
3.group by
在group by过程中可能会产生数据倾斜，所以需要开启Hive来解决数据倾斜问题 -set hive.groupby.skewindata = true;自动的将过程拆分为2个MapReduce来执行，其中第一个阶段负责数据的均衡，第二个阶段才负责数据的最后聚合
4.count distinct优化：
优化前：select count(distinct id )from tablename
Reduce - 既要去重还要计数 - 只要出现聚合函数，强制只能使用一个ReduceTask来执行
优化后：select count(*) from (select distinct id from tablename)tmp;
这种方式的优势在于子查询中可以设置多个ReduceTask来提高性能，后期再利用一个ReduceTask来进行聚合
5.字段的数量与切片的大小关系
会根据每一行字段的数量来调整切片的大小
6.JVM重用：
在MapReduce中，默认每执行一个MapTask或者ReduceTask就开启一次JVM子进程，这个过程中伴随着JVM子进程的大量的创建和销毁，所以就考虑JVM重用
7.指定严格模式：
a.严禁使用笛卡尔积查询
b.分区表的查询必须添加分区
8.关闭推测执行机制：因为实际生产环境中，数据倾斜出现的概率更大，所以会关闭推测执行机制