根据源码查看mapreduce作业分块逻辑

最新推荐文章于 2023-05-12 20:48:15 发布

nebofeng

最新推荐文章于 2023-05-12 20:48:15 发布

阅读量430

点赞数

分类专栏： bigdata 文章标签： MapReduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JustClimbing/article/details/79552964

版权

bigdata 专栏收录该内容

19 篇文章 1 订阅

订阅专栏

1.首先我们知道inputformat接口有两个方法
(旧版api 放置在 org.apache.hadoop.mapred
新版 api放置在 org.apache.hadoop.mapreduce)

第一个getSplits是获取分块的方法
第二个createRdcordReader是获取RecordReader
查看第一个方法：
这里写图片描述

2.查看其子类FileInputformat的实现
这里写图片描述

决定splitsize的方法
这里写图片描述
splitsize 为 Math.max(minSize,Math.min(maxSize,blockSize))

3.splitSize计算过程

1）blockSize即为block块的size hadoop1.x的HDFS默认块大小为64MB；hadoop2.x的默认块大小为128MB
这里写图片描述
2）minsize

其中第一个参数：

另一个参数 :

从配置中读取该参数 mapreduce.input.fileinputformat.split.minsize 。默认为零
所以一般默认情况下。minsize 是1
3）maxsize
这里写图片描述
而maxsize 是获取这个值 mapreduce.input.fileinputformat.split.maxsize
这个在配置文件中我没有找到。如果没有设置的话是 long MAX_VALUE

所以至此默认情况下：minsize < blocksize< maxsize
即： splitsize 应该等于blocksize

4.计算方法
所以以文件200 m，blocksize 64m为例
根据2（源码中的计算方式）
200/64 = 3 + 8m
m>64 * 0.1
200m文件应该分为 4个split

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。