【Mapred】输入数据的分片实质

最新推荐文章于 2022-08-30 07:53:03 发布

年轻的海员

最新推荐文章于 2022-08-30 07:53:03 发布

阅读量879

点赞数

本文链接：https://blog.csdn.net/tracymkgld/article/details/17613045

版权

http://blog.csdn.net/tracymkgld/article/details/17578593提到作业的提交的时候，输入数据需要分片，当时提到有新旧两种分片方式，那么这里就来看看什么是新方法，与旧方法有什么不同。

hadoop1.0.3依据参数 mapred.mapper.new-api的配置选择不同的切片方法。

同样在http://blog.csdn.net/tracymkgld/article/details/17578593已经简单讲了一下FileInputFormat这种输入数据类型的切分原理，实质就是根据切片大小，对数据位置即所在机器列表进行切分。然后把这些信息写到job.split文件里。

现在重新仔细研究一下，这个老切片方法切片大小是怎么确定的。

a、先根据文件总量（Byte数）和用户配置的map数，确定一个所谓的goal大小，就是目标大小，有时候用户是傻逼的，输入数据量和map数配置得并不合理，对吧，所以这个goal大小可大可小。如果太小了呢，不合理，为啥呢，因为一个map不管处理的数据大小，都得启动一个task，屁大点数据，你起1000个map显然是对资源的浪费，当然，切分也不好切，因为hdfs的块基本上有128M的或者256M的，64M的都很少，你切片如果10M,我日，256M的一个块，都得切20多片，这什么玩意，这就失去了切片的根本意义。基于这样一个原理，系统给出了最小分片大小的限制，这个东西也是用户可以选配的，mapred.min.split.size。

b、确定分片大小

Math.max(minSize, Math.min(goalSize, blockSize));

从这里可以看出，允许的分片大小可能得区间，如果配置的最小分片大小不大于一个数据块，那么分片大小要在(min，blockSize]区间内，最大取到一个块的大小。

如果你配置的最小分片大小更大，比如2个块那么大，那么所有的分片都是固定的，都按照你配置的大小来分。把真实的分片大小限制到不大于1个数据块的大小，为啥？你想想一个分片由多个块组成，一个分片肯定要交给一个map处理啊，这样后面排序的意义就没有了
排序就是尽量让map避免从远端的机器拿数据，要本地化，现在一个分片就有多个block，那么一个分片不在一台机器上，map计算就必然要夸机器拿数据。

c、开始分，分的是啥，咋分？

        long bytesRemaining = length;//一个文件的总byte数，开始分的时候剩余就是总量嘛，没分嘛，擦
        while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {//SPLIT_SLOP = 1.1，就是说分到不足1个切片大小的时候就停了。
          String[] splitHosts = getSplitHosts(blkLocations, 
              length-bytesRemaining, splitSize, clusterMap);

重点看一下getSplitHosts：

转载请注明出处：http://write.blog.csdn.net/postedit/17613045

年轻的海员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Mapred】输入数据的分片实质

http://blog.csdn.net/tracymkgld/article/details/17578593提到作业的提交的时候，输入数据需要分片，当时提到有新旧两种分片方式，那么这里就来看看什么是新方法，与旧方法有什么不同。hadoop1.0.3依据参数 mapred.mapper.new-api的配置选择不同的切片方法。同样在http://blog.csdn.net/tracym
复制链接

扫一扫