hive生产中的参数配置——不同任务不同参数

最新推荐文章于 2024-08-16 09:45:15 发布

pub.ryan

最新推荐文章于 2024-08-16 09:45:15 发布

阅读量381

点赞数

分类专栏：数仓

本文链接：https://blog.csdn.net/qq_36269641/article/details/111661956

版权

本文主要介绍了在Hive生产环境中如何配置参数以优化任务性能。内容包括设置任务优先级、开启中间压缩、配置map和reduce端压缩、启用小文件合并、动态分区以及调整内存和CPU使用等关键参数。

摘要由CSDN通过智能技术生成

在脚本中hive-e后面直接设置：

--任务优先级别

set mapred.job.priority = NORMAL;

--开启中间压缩(map输出结果压缩，map端溢写时压缩后再传输)
set hive.exec.compress.intermediate = true

--设置map端压缩参数：决定压缩的两种：1. set hive的compress.output参数；2.表参数只适用于表存储格式为orc与parquet格式，tblproperties("orc.compress"=snappy")

set =true

set mapreduce.output.fileouputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec

--设置reduce端压缩

set =true

set mapreduce.output.fileouputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec

--在Map-Reduce的任务结束时合并小文件（从map到reduce
set hive.merge.mapredfiles = true;

--合并文件的大小,设置为块大小的两倍256M
set hive.merge.size.per.task = 256000000;

--当输出文件的平均大小小于该值时，启动一个独立的map-reduce任务进行文件merge
set hive.merge.smallfiles.avgsize=128000000;
<