Hive--参数调优

Samooyou

已于 2022-05-31 15:43:21 修改

阅读量494

点赞数

分类专栏： hive 文章标签： hive hadoop big data

于 2022-05-27 16:05:17 首次发布

本文链接：https://blog.csdn.net/Samooyou/article/details/125005865

版权

本文介绍了Hive的参数调优，包括mapred.max.split.size、mapred.reduce.tasks、hive.exec.reducers.bytes.per.reducer等关键参数，旨在优化map和reduce任务的分配，减少小文件数量，提高数据处理效率。此外，还涉及到map端聚合、动态分区和数据倾斜优化的配置策略。

摘要由CSDN通过智能技术生成

mapred.max.split.size=256000000; // 决定每个map处理的最大的文件大小，单位为B
mapred.min.split.size.per.node=1; // 节点中可以处理的最小的文件大小
mapred.min.split.size.per.rack=1; // 机架中可以处理的最小的文件大小

mapred.reduce.tasks=10; -- 设置reduce的数量
hive.exec.reducers.bytes.per.reducer=1073741824 // 每个reduce处理的数据量,默认1GB

hive.merge.mapredfiles=false //reduce输出是否合并
hive.merge.mapfiles=true //map输出是否合并
hive.merge.smallfiles.avgsize=16000000 // 小文件大小

hive.mapred.mode=nonstrict //分为nonstrict，strict，默认是nonstrict;如果设置为strict，会对三种情况的语句在compile环节做过滤：笛卡尔积、order by 不加 limit、分区表不指定 partition predicate
hive.map.aggr=true // map端聚合,相当于combiner
hive.map.aggr.hash.force.flush.memory.threshold=0.9
hive.map.aggr.hash.min.reduction=0.5
hive.map.aggr.hash.percentmemory=0.5

hive.exec.reducers.max=200;
hive.groupby.mapaggr.checkinterval=100000 ; //group的键对应的记录条数

最低0.47元/天解锁文章

Samooyou

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive--参数调优

mapred.max.split.size=256000000; // 决定每个map处理的最大的文件大小，单位为Bmapred.min.split.size.per.node=1; // 节点中可以处理的最小的文件大小mapred.min.split.size.per.rack=1; // 机架中可以处理的最小的文件大小mapred.reduce.tasks=10; -- 设置reduce的数量hive.exec.reducers.bytes.per.reducer=1073741824 // 每
复制链接

扫一扫