hive优化

最新推荐文章于 2022-03-28 09:10:31 发布

孤独的挑灯者

最新推荐文章于 2022-03-28 09:10:31 发布

阅读量100

点赞数

文章标签： hive mapreduce

本文链接：https://blog.csdn.net/helloTTi/article/details/112433319

版权

1抓取优化）

把hive.fetch.task.conversion设置成more，然后执行查询语句，
如下查询方式都不会执行mapreduce程序。
set hive.fetch.task.conversion=more;

2适当时候采取本地模式）

set hive.exec.mode.local.auto=true; //开启本地mr
//设置local mr的最大输入数据量，当输入数据量小于这个值时采用local mr的
方式，默认为134217728，即128M
set hive.exec.mode.local.auto.inputbytes.max=50000000;
//设置local mr的最大输入文件个数，当输入文件个数小于这个值时采用local mr
的方式，默认为4
set hive.exec.mode.local.auto.input.files.max=10;

3合理设置reduce个数）

默认的reduce个数是1009，
set mapreducer.job.reduces=个数
（1）每个Reduce处理的数据量默认是256MB
hive.exec.reducers.bytes.per.reducer=256000000
（2）每个任务最大的reduce数，默认为1009
hive.exec.reducers.max=1009
（3）计算reducer数的公式
N=min(参数2，总输入数据量/参数1)

4 mapjion 开启模式）

开启MapJoin参数设置
（1）设置自动选择Mapjoin
set hive.auto.convert.join = true; 默认为true
（2）大表小表的阈值设置（默认25M以下认为是小表）：
set hive.mapjoin.smalltable.filesize=25000000;
开启Mapjoin功能
set hive.auto.convert.join = true; 默认为true

5开启Map端聚合参数设置）

（1）是否在Map端进行聚合，默认为True
set hive.map.aggr = true
（2）在Map端进行聚合操作的条目数目
set hive.groupby.mapaggr.checkinterval = 100000
（3）有数据倾斜的时候进行负载均衡（默认是false）
set hive.groupby.skewindata = true

6设置切片的大小）

set mapreduce.input.fileinputformat.split.maxsize=100（字节）

7合并小文件）

set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
在Map-Reduce的任务结束时合并小文件的设置：
在map-only任务结束时合并小文件，默认true
SET hive.merge.mapfiles = true;
在map-reduce任务结束时合并小文件，默认false
SET hive.merge.mapredfiles = true;
合并文件的大小，默认256M
SET hive.merge.size.per.task = 268435456;
当输出文件的平均大小小于该值时，启动一个独立的map-reduce任务进行文件merge
SET hive.merge.smallfiles.avgsize = 16777216;

8开启任务的并行度）

set hive.exec.parallel=true; //打开任务并行执行，默认为false
set hive.exec.parallel.thread.number=16; //同一个sql允许最大并行度，默认为8。

9map端开启压缩）

（1）开启hive中间传输数据压缩功能
hive (default)>set hive.exec.compress.intermediate=true;
（2）开启mapreduce中map输出压缩功能
hive (default)>set mapreduce.map.output.compress=true;
（3）设置mapreduce中map输出数据的压缩方式
hive (default)>set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;

10reduce端开启输出压缩）

（1）开启hive最终输出数据压缩功能
hive (default)>set hive.exec.compress.output=true;
（2）开启mapreduce最终输出数据压缩
hive (default)>set mapreduce.output.fileoutputformat.compress=true;
（3）设置mapreduce最终数据输出压缩方式
hive (default)> set mapreduce.output.fileoutputformat.compress.codec =org.apache.hadoop.io.compress.SnappyCodec;
（4）设置mapreduce最终数据输出压缩为块压缩
hive (default)> set mapreduce.output.fileoutputformat.compress.type=BLOCK;

孤独的挑灯者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive优化

1抓取优化）把hive.fetch.task.conversion设置成more，然后执行查询语句，如下查询方式都不会执行mapreduce程序。set hive.fetch.task.conversion=more;2适当时候采取本地模式）set hive.exec.mode.local.auto=true; //开启本地mr//设置local mr的最大输入数据量，当输入数据量小于这个值时采用local mr的方式，默认为134217728，即128Mset hive.ex..
复制链接

扫一扫