注解重写方法时一定要写:
早上调试MapReduce程序时发现Reducer不执行,在排查代码后,发现Reducer类中的reduce方法被我写成了reducer,所以相当于重新创建了一个方法而没有重写父类方法,没有写注解所以没有发现,以后要注意写注解。
静态内部类的static关键字注意不能忘了写:
前几天编写Mapreduce程序时,由于主方法和Mapper类、Reducer类封装在了一起,所以在job引入Mapper环节时编译可以通过,运行后报找不到类的异常,经排查后发现竟然忘了写static关键字...好蠢
MapReduce切片机制:
SPLIT_SLOP = 1.1,即当划分后剩余文件大小除splitSize大于1.1时,循环继续,小于1.1时退出循环,将剩下的文件大小归到一个切片上去。
// 128MB
long blockSize = file.getBlockSize();
// 128MB
long splitSize = computeSplitSize(blockSize, minSize, maxSize);
// 文件的大小 260MB
long bytesRemaining = length;
// 第一次 260/128=2.x > 1.1
// 第二次 132/128=1.03 <1.1 不执行循环
while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
// 获取块的索引
int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
// 将块的信息保存到splits集合中
splits.add(makeSplit(path, length-bytesRemaining, splitSize,
blkLocations[blkIndex].getHosts(),
blkLocations[blkIndex].getCachedHosts()));
// 260-128=132MB
bytesRemaining -= splitSize;
}
// 将剩余的132MB添加到splits集合中
if (bytesRemaining != 0) {
int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
splits.add(makeSplit(path, length-bytesRemaining, bytesRemaining,
blkLocations[blkIndex].getHosts(),
blkLocations[blkIndex].getCachedHosts()));
}
FileInputFormat中默认的切片机制:
- 简单地按照文件的内容长度进行切片
- 切片大小,默认等于block大小,可以通过调整参数修改,注意1.1的问题
- 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片
- 一个切片(split)对应一个MapTask事例
- 一个job的map阶段并行度由客户端在提交job时决定
比如待处理数据有两个文件:
file1.txt 260M
file2.txt 10M
经过FileInputFormat的切片机制运算后,形成的切片信息如下
file1.txt.split1-- 0~128
file1.txt.split2-- 128~260
file2.txt.split1-- 0~10M。
由此可知每个文件的剩余大小小于1.1时都会被切成一片