【单点】每日突破，MapReduce Split

桥路丶

于 2021-07-17 11:04:01 发布

阅读量640

点赞数

分类专栏：大数据文章标签： hadoop mapreduce

本文链接：https://blog.csdn.net/qq_33876553/article/details/118853852

版权

大数据专栏收录该内容

44 篇文章 7 订阅

订阅专栏

MapReduce Split

问：在MapReduce进行数据处理时，会进行split数据切片，它的默认拆分规则是？如果不按照默认规则进行拆分，会发生什么现象？

答：

MapReduce默认按照128M进行数据split切分（与HDFS Block大小相同），具体计算规则为：

Math.max(minSize, Math.min(maxSize, blockSize));   
mapreduce.input.fileinputformat.split.minsize=1 默认值为1  
mapreduce.input.fileinputformat.split.maxsize= Long.MAXValue 默认值Long.MAXValue  
blockSize为128M

可以通过改变minsize、maxSize参数，来调整split规则。

mapreduce.input.fileinputformat.split.maxsize
mapreduce.input.fileinputformat.split.minsize

当剩余的文件大于splitSize的1.1倍时，才进行拆分，避免生成较小的切片。例如当前文件为129M，小于splitSize（128M）的1.1倍，所以不做拆分。

while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
    ...
    bytesRemaining -= splitSize;
}

如果数据存储在HDFS中，按128M进行拆分。调整了split大小后，会导致数据移动。假设需要处理的文件大小为300M，存储到HDFS中后被拆分为3个Block块（128M、128M、44M）。此时MapReduce按照100M进行split，那么Block1拆出100M后剩余的28M会通过网络传输到Block2节点，Block2拆分100M后剩余56M通过网络传输到Block3节点，Block3此时正好拥有100M数据，完成切分。这个过程，会增加额外开销。

今天的单点，你是否get到了呢？每日单点，用5分钟收获一点！今天你打卡了没？

后话

如果有帮助的，记得点赞、关注。在公众号《数舟》中，可以免费获取专栏《数据仓库》配套的视频课程、大数据集群自动安装脚本，并获取进群交流的途径。

我所有的大数据技术内容也会优先发布到公众号中。如果对某些大数据技术有兴趣，但没有充足的时间，在群里提出，我为大家安排分享。

公众号自取：

公众号

桥路丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
3
评论
【单点】每日突破，MapReduce Split

MapReduce Split问：在MapReduce进行数据处理时，会进行split数据切片，它的默认拆分规则是？如果不按照默认规则进行拆分，会发生什么现象？答：MapReduce默认按照128M进行数据split切分（与HDFS Block大小相同），具体计算规则为：Math.max(minSize, Math.min(maxSize, blockSize)); mapreduce.input.fileinputformat.split.minsize=1 默认值为1 mapred
复制链接

扫一扫