MapReduce Input Split（输入分/切片）详解

最新推荐文章于 2024-08-09 22:26:50 发布

置顶光于前裕于后

最新推荐文章于 2024-08-09 22:26:50 发布

阅读量3.6w

点赞数 19

分类专栏：大数据动物园大数据基础知识

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dr_guo/article/details/51150278

版权

大数据基础知识同时被 2 个专栏收录

28 篇文章 18 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

大数据动物园

95 篇文章 6 订阅

订阅专栏

MapReduce的输入分片（Input Split）在执行map任务前确定，每个分片对应一个map任务。分片大小由minSplitSize、maxSplitSize和blockSize决定，实际占用空间按文件大小。Hadoop 2.x默认block大小为128MB，1.x为64MB，可通过配置调整。未设置分片范围时，splitSize等于blockSize。小文件在HDFS中仍按实际大小占用空间，块大小作为元数据用于决定文件增长时的split点。

摘要由CSDN通过智能技术生成

看了很多博客，感觉没有一个说的很清楚，所以我来整理一下。

先看一下这个图

输入分片（Input Split）：在进行map计算之前，mapreduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个map任务，输入分片（input split）存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数组。

Hadoop 2.x默认的block大小是128MB，Hadoop 1.x默认的block大小是64MB，可以在hdfs-site.xml中设置dfs.block.size，注意单位是byte。

分片大小范围可以在mapred-site.xml中设置，mapred.min.split.siz

了解本专栏

超级会员免费看

光于前裕于后

关注

19
点赞
踩
72

收藏

觉得还不错? 一键收藏
打赏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

光于前裕于后 您的打赏将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。