Hive优化总结

最新推荐文章于 2022-09-07 13:38:52 发布

会飞的锦鲤

最新推荐文章于 2022-09-07 13:38:52 发布

阅读量165

点赞数

分类专栏： Hive 文章标签：数据仓库大数据 Hive优化

本文链接：https://blog.csdn.net/m0_38035733/article/details/86671803

版权

Hive 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

HIVE优化总结

一.表优化
二.了解表信息和sql执行计划
三.Hql优化
四.MR优化

一.表优化

1.大表拆成子表,取少数字段,数据量小

2.分区

3.分桶,极大地优化了大表与大表的join(SMB Join)

如果两个桶对相同的字段做了分桶,且分桶个数相同,可开启map端sort-merge-join
set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;
set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;

4.压缩(textfile,orc,parquet) snappy

二.了解表信息和sql执行计划

1.analyze

analyze table tablename compute statistics;

2.explain

3.查看执行日志

三.Hql优化

1.使用分区

2.先where再join,绝不要先join再where

3.join连接字段用on不用where

4.grouping sets和with rollup和with cube

5.去重用union和union all Group by,不要用count(distinct)这个全局排序

6.union all可以减少job数

(eg:select count(1) from a,b…;select type,count(1) from (select ‘a’ type,id from a union all …) tmp group by type)

7.多表同join连接条件,减少job数

(eg:select * from a left join b on a.id=b.id left join c on a.id=c.id?

8.多表插入,读取一次,多次插入

(eg:from a
insert overwrite table b
select col1,col2 where type=‘b’
insert overwrite table c
select col1,col3 where type=‘c’
…)

9.一次计算,多次使用

create table tmp as select …
with tmp as (select …)

四.MR优化

1.小文件

①map输入时合并小文件

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

②合并输出小文件

输出时进行合并：

set hive.merge.mapfiles = true

#在Map-only的任务结束时合并小文件

set hive.merge.mapredfiles= true

#在Map-Reduce的任务结束时合并小文件

set hive.merge.size.per.task = 1024000000

#合并后文件的大小为1GB左右

set hive.merge.smallfiles.avgsize=1024000000

#当输出文件的平均大小小于1GB时，启动一个独立的map-reduce任务进行文件merge

2.mapTask

①调节mapTask个数

splitSize=max{mapred.split.min.size(1B),min{dfs.block.size(128M),mapred.split.max.size(256M)}}
以128m为界,想要splitSize大于128m就增加min
想要splitSize小于128m就减小max