HiveSQL调配设置参数（持续更新）

最新推荐文章于 2023-11-08 19:10:34 发布

拉普达男孩

最新推荐文章于 2023-11-08 19:10:34 发布

阅读量823

点赞数

分类专栏：大数据文章标签： hive

本文链接：https://blog.csdn.net/ITwangnengjie/article/details/106418727

版权

大数据专栏收录该内容

25 篇文章 3 订阅

订阅专栏

set hive.exec.dynamic.partition.mode=nonstrict;#首个分区也未知，导入数据设置为动态分区
set mapred.max.split.size=2048000000#Map操作之前合并小文件：每个Map最大输入大小设置为2GB（单位：字节）
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat#执行Map前进行小文件合并
set hive.merge.mapfiles = true; #在Map-only的任务结束时合并小文件
set hive.merge.mapredfiles= true; #这个指的是 在Map-Reduce的任务结束时合并小文件
set hive.merge.smallfiles.avgsize=256000000;#在Map-Reduce的任务结束时合并小文件,合并后文件的大小平均为1GB左右
set hive.merge.size.per.task = 1024000000#合并后文件的大小为1GB左右
set hive.exec.compress.output=true;#默认false，是否对输出结果压缩
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;#压缩格式设置
set mapred.output.compression.type=BLOCK;#一共三种压缩方式（NONE, RECORD,BLOCK），BLOCK压缩率最高，一般用BLOCK。

拉普达男孩

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
HiveSQL调配设置参数（持续更新）

set hive.exec.dynamic.partition.mode=nonstrict;#首个分区也未知，导入数据设置为动态分区set mapred.max.split.size=2048000000#Map操作之前合并小文件：每个Map最大输入大小设置为2GB（单位：字节）set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat#执行Map前进行小文件合并set hive.merge.mapfiles .
复制链接

扫一扫

专栏目录