最近编写MapReduce时的小问题

最新推荐文章于 2022-01-04 12:18:47 发布

敲代码的余文乐

最新推荐文章于 2022-01-04 12:18:47 发布

阅读量209

点赞数 2

分类专栏： Hadoop MapReduce 文章标签： MapReduce Hadoop

本文链接：https://blog.csdn.net/qq_43189115/article/details/99362018

版权

Hadoop 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

MapReduce

2 篇文章 0 订阅

订阅专栏

注解重写方法时一定要写：

早上调试MapReduce程序时发现Reducer不执行，在排查代码后，发现Reducer类中的reduce方法被我写成了reducer，所以相当于重新创建了一个方法而没有重写父类方法，没有写注解所以没有发现，以后要注意写注解。

静态内部类的static关键字注意不能忘了写：

前几天编写Mapreduce程序时，由于主方法和Mapper类、Reducer类封装在了一起，所以在job引入Mapper环节时编译可以通过，运行后报找不到类的异常，经排查后发现竟然忘了写static关键字...好蠢

MapReduce切片机制：

SPLIT_SLOP = 1.1，即当划分后剩余文件大小除splitSize大于1.1时，循环继续，小于1.1时退出循环，将剩下的文件大小归到一个切片上去。

// 128MB
 long blockSize = file.getBlockSize();
 // 128MB
 long splitSize = computeSplitSize(blockSize, minSize, maxSize);
 // 文件的大小 260MB
 long bytesRemaining = length;
 // 第一次 260/128=2.x > 1.1
 // 第二次 132/128=1.03 <1.1 不执行循环
 while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
   // 获取块的索引
   int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
   // 将块的信息保存到splits集合中
   splits.add(makeSplit(path, length-bytesRemaining, splitSize,
               blkLocations[blkIndex].getHosts(),
               blkLocations[blkIndex].getCachedHosts()));
   // 260-128=132MB
   bytesRemaining -= splitSize;
 }
 // 将剩余的132MB添加到splits集合中
if (bytesRemaining != 0) {
int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
splits.add(makeSplit(path, length-bytesRemaining, bytesRemaining,
           blkLocations[blkIndex].getHosts(),
           blkLocations[blkIndex].getCachedHosts()));
}

FileInputFormat中默认的切片机制：

简单地按照文件的内容长度进行切片
切片大小，默认等于block大小，可以通过调整参数修改，注意1.1的问题
切片时不考虑数据集整体，而是逐个针对每一个文件单独切片
一个切片(split)对应一个MapTask事例
一个job的map阶段并行度由客户端在提交job时决定

比如待处理数据有两个文件：
    file1.txt    260M
    file2.txt    10M
经过FileInputFormat的切片机制运算后，形成的切片信息如下
    file1.txt.split1--  0~128
    file1.txt.split2--  128~260
    file2.txt.split1--  0~10M。

由此可知每个文件的剩余大小小于1.1时都会被切成一片

敲代码的余文乐

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
最近编写MapReduce时的小问题

注解重写方法时一定要写：早上调试MapReduce程序时发现Reducer不执行，在排查代码后，发现Reducer类中的reduce方法被我写成了reducer，所以相当于重新创建了一个方法而没有重写父类方法，没有写注解所以没有发现，以后要注意写注解。静态内部类的static关键字注意不能忘了写：前几天编写Mapreduce程序时，由于主方法和Mapper类、Reducer类封装在了一...
复制链接

扫一扫

专栏目录