简述如何得到map 个数

最新推荐文章于 2024-09-07 19:12:31 发布

LAFEU

最新推荐文章于 2024-09-07 19:12:31 发布

阅读量1.4k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LAFEU/article/details/100015237

版权

发现这个作者总结的很好，大家直接去原作者下学习吧~原文链接：https://blog.csdn.net/qq_26442553/article/details/99438121

如果对于Hive调优，想通过控制map个数进行调优，首先确定集群是否启动了压缩，且压缩的算法是否直接文件切分，然后再确定集群配置的默认的hive.input.format是什么实现类，不同实现类对于split的算法不同，当然控制map的参数也不同。所以对于控制map个数调优远远不是网上很多人说的那么简单。
————————————————

我总结的还待改进：

dfs.block.size=256 集群块的大小

total_size 每个文件的大小；

default_num = total_size/dfs.block.size ;

default_num = max(default_num,集群默认2)

可以根据map.mapred.task 来指定map数量，前提是，这个数量大于split_num 生效；

还有两个参数 map.min.split.size 、 map.max.spit.size ;

如果split_size= dfs.block.size > map.min.split.size && dfs.block.size<map.max.spit.size 则用dfs.block.size

否则用 map.min.split.size 、 map.max.spit.size ;

split_num = total_size/split_size ;

compute_map_num = split_num

input_file_num 文件的个数，每一个map处理的数据是不能跨越文件的；m 个数一定>=input_file_num

m个数= max(compute_map_num, input_file_num)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

LAFEU CSDN认证博客专家 CSDN认证企业博客

码龄15年

14: 原创

43万+: 周排名

17万+: 总排名

1万+: 访问

: 等级

309: 积分

6: 粉丝

6: 获赞

5: 评论

1: 收藏

私信

关注

热门文章

最新评论

ipv4与十进制整数的转换
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
指定文件格式写入hdfs目录
CSDN-Ada助手: 恭喜您写了第12篇博客！标题“指定文件格式写入hdfs目录”非常吸引人。您的博客内容一直都很有深度和实用性，我真的很期待每一篇的发布。不仅如此，您的写作风格也非常易懂，让读者能够轻松理解您的观点。我建议您在下一步的创作中，可以尝试探索一些与HDFS目录相关的高级功能或者一些更加复杂的文件格式。或者，您也可以分享一些关于如何优化文件写入速度或者提高数据存储效率的经验。我相信这些内容会让读者们更加受益。再次恭喜您，期待您未来更多的创作！请继续保持谦逊的态度，您的博客已经成为了许多人学习的宝贵资源。加油！
连续签到的天数
Lansonli: 原创不易，过来支持一下~
presto,hive查询比较，presto缺点
Beeman_xia: 这是要刷新下元数据吧
Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder'
小启_: 请问这个配置在哪？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。