关于hive语句执行时的map个数（二）

最新推荐文章于 2024-04-02 08:30:54 发布

shj1119

最新推荐文章于 2024-04-02 08:30:54 发布

阅读量900

点赞数

分类专栏： hive相关文章标签： Hadoop hive format

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shj1119/article/details/8938889

版权

hive相关专栏收录该内容

21 篇文章 0 订阅

订阅专栏

发现我一个很大的问题，不喜欢看源代码，唉，静不下心来，浮躁。。。

继续上一篇文章，提到combinHiveinputformat，看不懂，没去仔细看。直接操作，把hive-site.xml中的此项值改为了hiveinputformat，发现hive sql语句执行的时候基本是按照文件个数（小文件1个文件对应1个map，大的切分了多个map，与之前看的hadoop分map的资料基本对应起来了）来分配map个数了。（888个小文件，894个map）

由此猜测combinehiveinputformat是先将所有的小文件进行合并，如果不超过某个值，则只启动1个map，超过某值则多个，这个值可能不是block size。试过600多m的文件3个map，800多m的文件4个map。可能还得结合文件个数来推测。如果600m是多个小文件+2个大文件，800多m是多个小文件+3个大文件，则有可能是合并小文件，大文件按blocksize切，待验证，看明白源码，估计就真相大白了。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于hive语句执行时的map个数（二）

发现我一个很大的问题，不喜欢看源代码，唉，静不下心来，浮躁。。。继续上一篇文章，提到combinHiveinputformat，看不懂，没去仔细看。直接操作，把hive-site.xml中的此项值改为了hiveinputformat，发现hive sql语句执行的时候基本是按照文件个数（小文件1个文件对应1个map，大的切分了多个map，与之
复制链接

扫一扫

专栏目录

shj1119

CSDN认证博客专家 CSDN认证企业博客

码龄15年

81: 原创

4万+: 周排名

171万+: 总排名

21万+: 访问

: 等级

2348: 积分

5: 粉丝

16: 获赞

5: 评论

28: 收藏

私信

关注

热门文章

分类专栏

最新评论

hadoop基础知识1
西柚ing: 没答案吗博主
reduce个数的决定因素
qq_41500999: 默认不是1个G
3岁了
changshenglugu: 你很爱你的孩子，文章读起来很暖心。
kafka与storm集成测试问题小结
meiLin_Ya: --------------server端没有storm-kafka相关jar包从本地maven库找到拷过去------------请问怎么拷到集群得server端？还是？
kafka与storm集成测试问题小结
qq_28687055: storm on yarn怎么链接kafka？ storm on yarn找不到相关的jar包。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。