1.map side join:
将小表进行缓存,这样子就可以有效的减少MapReduce的数量从而提高计算效率。要求小表需要放在join的左 侧。默认缓存的内存大小是25M
2.多表join与where同时出现
当进行多表的join操作的时候,如果出现了where查询,那么需要先利用子查询进行条件查询然后再进行join,这么做的目的是为了减少中间产生的数据量和计算量
3.group by
在group by过程中可能会产生数据倾斜,所以需要开启Hive来解决数据倾斜问题 -set hive.groupby.skewindata = true;自动的将过程拆分为2个MapReduce来执行,其中第一个阶段负责数据的均衡,第二个阶段才负责数据的最后聚合
4.count distinct优化:
优化前:select count(distinct id )from tablename
Reduce - 既要去重还要计数 - 只要出现聚合函数,强制只能使用一个ReduceTask来执行
优化后:select count(*) from (select distinct id from tablename)tmp;
这种方式的优势在于子查询中可以设置多个ReduceTask来提高性能,后期再利用一个ReduceTask来进行聚合
5.字段的数量与切片的大小关系
会根据每一行字段的数量来调整切片的大小
6.JVM重用:
在MapReduce中,默认每执行一个MapTask或者ReduceTask就开启一次JVM子进程,这个过程中伴随着JVM子进程的大量的创建和销毁,所以就考虑JVM重用
7.指定严格模式:
a.严禁使用笛卡尔积查询
b.分区表的查询必须添加分区
8.关闭推测执行机制:因为实际生产环境中,数据倾斜出现的概率更大,所以会关闭推测执行机制
Hive优化
最新推荐文章于 2024-05-01 22:20:02 发布