http://blog.csdn.net/tracymkgld/article/details/17578593提到作业的提交的时候,输入数据需要分片,当时提到有新旧两种分片方式,那么这里就来看看什么是新方法,与旧方法有什么不同。
hadoop1.0.3依据参数 mapred.mapper.new-api的配置选择不同的切片方法。
同样在http://blog.csdn.net/tracymkgld/article/details/17578593已经简单讲了一下FileInputFormat这种输入数据类型的切分原理,实质就是根据切片大小,对数据位置即所在机器列表进行切分。然后把这些信息写到job.split文件里。
现在重新仔细研究一下,这个老切片方法切片大小是怎么确定的。
a、先根据文件总量(Byte数)和用户配置的map数,确定一个所谓的goal大小,就是目标大小,有时候用户是傻逼的,输入数据量和map数配置得并不合理,对吧,所以这个goal大小可大可小。如果太小了呢,不合理,为啥呢,因为一个map不管处理的数据大小,都得启动一个task,屁大点数据,你起1000个map显然是对资源的浪费,当然,切分也不好切,因为hdfs的块基本上有128M的或者256M的,64M的都很少,你切片如果10M,我日,256M的一个块,都得切20多片,这什么玩意,这就失去了切片的根本意义。基于这样一个原理,系统给出了最小分片大小的限制,这个东西也是用户可以选配的,mapred.min.split.size。
b、确定分片大小
Math.max(minSize, Math.min(goalSize, blockSize));
从这里可以看出,允许的分片大小可能得区间,如果配置的最小分片大小不大于一个数据块,那么分片大小要在(min,blockSize]区间内,最大取到一个块的大小。
如果你配置的最小分片大小更大,比如2个块那么大,那么所有的分片都是固定的,都按照你配置的大小来分。把真实的分片大小限制到不大于1个数据块的大小,为啥?你想想一个分片由多个块组成,一个分片肯定要交给一个map处理啊,这样后面排序的意义就没有了
排序就是尽量让map避免从远端的机器拿数据,要本地化,现在一个分片就有多个block,那么一个分片不在一台机器上,map计算就必然要夸机器拿数据。
c、开始分,分的是啥,咋分?
long bytesRemaining = length;//一个文件的总byte数,开始分的时候剩余就是总量嘛,没分嘛,擦
while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {//SPLIT_SLOP = 1.1,就是说分到不足1个切片大小的时候就停了。
String[] splitHosts = getSplitHosts(blkLocations,
length-bytesRemaining, splitSize, clusterMap);
重点看一下getSplitHosts: