自己设置mapreduce程序的map个数和reduce个数

最新推荐文章于 2024-02-14 16:22:35 发布

Studying Zhou

最新推荐文章于 2024-02-14 16:22:35 发布

阅读量2.9k

点赞数

分类专栏： hive

本文链接：https://blog.csdn.net/weixin_42874157/article/details/91465381

版权

hive 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

设置reduce个数（一个reduce生成一个文件）
1、如果不指定reduce个数，hive会基于一下两个参数自动计算
（1）hive.exec.reducers.bytes.per.reducer
这是每个reduce处理的数据量，默认为1G=1000000000
（2）hive.exec.reducers.max(每个任务的最大reduce个数，默认1009)
reduce个数=min(参数2，map端输出数据总量/参数1)
2、设置每个reduce处理的数据量（例如1M）
参数：hive.exec.reducers.bytes.per.reducer=1000000；
reduce个数=map端输出数据总量/参数
3、直接设置reduce个数
set mapred.reduce.tasks=5;
4、在2,3中设置的参数在以下情况出现时会失效
（1）sql语句中没有group by的汇总
（2）使用了order by
（3）有笛卡尔积
（4）map端输出的数据量小于hive.exec.reducers.bytes.per.reducer参数值
设置map个数
map个数和来源表文件压缩格式有关，.gz格式的压缩文件无法切分，每个文件会生成一个map
set hive.hadoop.supports.splittable.combineinputformat=true; 只有这个参数打开，下面的3个参数才能生效
set mapred.max.split.size=16000000; 每个map负载
set mapred.min.split.size.per.node=100000000; 每个节点map的最小负载，这个值必须小于set mapred.max.split.size的值
set mapred.min.split.size.per.rack=100000000; 每个机架map的最小负载
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
常用设置：
set hive.mapred.mode=nonstrict;
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set mapred.job.name=p_${v_date};
set mapred.job.priority=HIGH;
set hive.groupby.skewindata=true;
set hive.merge.mapredfiles=true;
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
set mapred.output.compression.type=BLOCK;
set mapreduce.map.memory.mb=4096;
set mapreduce.reduce.memory.mb=4096;
set hive.hadoop.supports.splittable.combineinputformat=true;
set mapred.max.split.size=16000000;
set mapred.min.split.size.per.node=16000000;
set mapred.min.split.size.per.rack=16000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set hive.exec.reducers.bytes.per.reducer=128000000;

Studying Zhou

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
自己设置mapreduce程序的map个数和reduce个数

设置reduce个数（一个reduce生成一个文件）1、如果不指定reduce个数，hive会基于一下两个参数自动计算（1）hive.exec.reducers.bytes.per.reducer这是每个reduce处理的数据量，默认为1G=1000000000（2）hive.exec.reducers.max(每个任务的最大reduce个数，默认1009)reduce个数=min(参数...
复制链接

扫一扫