Hive SQL控制map数和reduce数

王树民

于 2023-06-06 13:39:30 发布

阅读量466

点赞数

分类专栏： hive 文章标签： hadoop 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangshuminjava/article/details/131065885

版权

hive 专栏收录该内容

56 篇文章 1 订阅

订阅专栏

控制Map数的个数

读取小文件较多，那么则需要在map端进行小文件合并，参数设置如下：

-- 设置输入文件格式

set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

--是否支持可切分的CombieInputFormat ，true是支持

set hive.hadoop.supports.splittable.combineinputformat = true;

set mapreduce.input.fileinputformat.split.maxsize = 256000000;

set mapreduce.input.fileinputformat.split.minsize.per.node=256000000;

set mapreduce.input.fileinputformat.split.minsize.per.rack=256000000;

控制Reduce数目

在设置动态分区后，产生的文件数会取决于map数和分区数的大小，假设动态分区初始有N个map数，同时生成M个分区，则中间会生成N*M个文件，通常这种情况就是让大部分数据尽量输出到一个reduce中进行处理，但是有些HiveSql不会产生reduce，也就是说文件最后没有进行合并处理，这种情况下可以用distribute by rand()的方式保证数据进行一次reduce操作，实现文件的合并。

两种处理方式参数设置如下：

a. 设置reduce个数

set mapred.reduce.tasks=50;

insert into table xxx

select * from xxx distribute by rand();

备注：set设置的参数是生成的文件个数，distribute by rand()保证数据随机分配到50个文件中。

b. 设置每个reducer处理的数据

set hive.exec.reducers.bytes.per.reducer=5120000000;

insert into table xxx

select * from xxx distribute by rand();

备注：set设置的参数是生成的文件大小，distribute by rand()保证数据的平均大小是512Mb。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive SQL控制map数和reduce数

在设置动态分区后，产生的文件数会取决于map数和分区数的大小，假设动态分区初始有N个map数，同时生成M个分区，则中间会生成N*M个文件，通常这种情况就是让大部分数据尽量输出到一个reduce中进行处理，但是有些HiveSql不会产生reduce，也就是说文件最后没有进行合并处理，这种情况下可以用distribute by rand()的方式保证数据进行一次reduce操作，实现文件的合并。备注：set设置的参数是生成的文件个数，distribute by rand()保证数据随机分配到50个文件中。
复制链接

扫一扫

专栏目录

王树民 CSDN认证博客专家 CSDN认证企业博客

码龄8年

561: 原创

2万+: 周排名

123万+: 总排名

490万+: 访问

: 等级

3万+: 积分

906: 粉丝

721: 获赞

371: 评论

3150: 收藏

私信

关注

热门文章

分类专栏

最新评论

出现 org.springframework.beans.factory.BeanCreationException 异常的原因及解决方法
m0_55165974: 也可能是java版本不对，看下是否匹配
druid集群的安装和验证
卡林神不是猫: 王老师您好！请问拷贝Hadoop的jar包去哪里拷贝呢？
地图瓦片编号与经纬度的换算关系
weixin_45506583: 具体怎么算呢？已知列号、行号、缩放等级，怎么转换成两个经纬度呢
byte为什么是-128-127
做而论道_CS: 由补码换算到十进制数，是极其简单的事！你只需记住：【补码首位的权，是负数】。一般的八位二进制数，各个位的权是：　　128、64、32、16、8、4、2、1。如果是八位的补码，各个位的权则是：　－128、64、32、16、8、4、2、1。例如，有一个补码是：1110 0001，它代表的十进制就是：－128 + 64 + 32 + 1 = －31。如果，换另一个补码：0110 0001，它代表的十进制数是：0 + 64 + 32 + 1 = ＋97。仅仅使用【进制转换】，不就完事了嘛？原码反码取反加一？根本就用不着啊。想都不用想！
byte为什么是-128-127
做而论道_CS: 补码的来历，仅仅是在于：你如何处理进位。补码，并不是来自：　机器数真值符号位原码反码正数三码相同负数取反加一符号位不变模同余。。。计算机专家，如果小学毕了业，就不会费这么大的事来解释补码！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。