Mapreduce切片机制

最新推荐文章于 2023-07-18 14:44:49 发布

BDLng

最新推荐文章于 2023-07-18 14:44:49 发布

阅读量2.2k

点赞数 2

分类专栏：大数据之hadoop 文章标签： hadoop 大数据 mapreduce

本文链接：https://blog.csdn.net/m0_37746890/article/details/78834603

版权

大数据之hadoop 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

为什么：

一个文件比如由200MB，存储再HDFS上，又按HDFS默认块大小128MB进行切块(block)存储，且每个块(block)备份3份，那么这个文件将被切成2块存储到HDFS上。mapreduce程序相当于HDFS的客户端，每个节点上的mapreduce向HDFS拿数据时，如果没有规划好切片大小，导致节点上程序运行，需要从其他节点上拿数据，那么必然经过网络传输，会消耗网络资源，速度慢，那么这样显然不好，所以要好好规划切片。

《Mapreduce&yarn工作机制》

切片机制原理：

客户端根据用户所配置的minsize和maxsize来规划切片，客户端提交任务后，客户端程序就会调用hdfs的方法，判断需要处理的文件大小，然后再根据用户配置的参数minsize和maxsize，参数解释：

minsize：默认值：1

配置参数： mapreduce.input.fileinputformat.split.minsize

maxsize：默认值：Long.MAXValue

配置参数：mapreduce.input.fileinputformat.split.maxsize

blocksize

通过逻辑splitSize = Math.max(minSize, Math.min(maxSize, blockSize))确定切片的大小。

拿到参数后，就按照splitSize对文件进行切割。通过逻辑splitSize = Math.max(minSize, Math.min(maxSize, blockSize))确定切片的大小。

注意：这里由一段逻辑：

while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
     int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
     splits.add(makeSplit(path, length-bytesRemaining, splitSize,blkLocations[blkIndex].getHosts(),
                  blkLocations[blkIndex].getCachedHosts()));
     bytesRemaining -= splitSize;
}

解释：SPLIT_SLOP = 1.1，即当划分后剩余文件大小除splitSize大于1.1时，循环继续，小于1.1时退出循环，将剩下的文件大小归到一个切片上去。

BDLng

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Mapreduce切片机制

为什么：一个文件比如由200MB，存储再HDFS上，又按HDFS默认块大小128MB进行切块(block)存储，且每个块(block)备份3份，那么这个文件将被切成2块存储到HDFS上。mapreduce程序相当于HDFS的客户端，每个节点上的mapreduce向HDFS拿数据时，如果没有规划好切片大小，导致节点上程序运行，需要从其他节点上拿数据，那么必然经过网络传输，会消耗网络资源，速度慢，
复制链接

扫一扫