最近编写MapReduce时的小问题

注解重写方法时一定要写:

早上调试MapReduce程序时发现Reducer不执行,在排查代码后,发现Reducer类中的reduce方法被我写成了reducer,所以相当于重新创建了一个方法而没有重写父类方法,没有写注解所以没有发现,以后要注意写注解。

静态内部类的static关键字注意不能忘了写:

前几天编写Mapreduce程序时,由于主方法和Mapper类、Reducer类封装在了一起,所以在job引入Mapper环节时编译可以通过,运行后报找不到类的异常,经排查后发现竟然忘了写static关键字...好蠢

MapReduce切片机制:

SPLIT_SLOP = 1.1,即当划分后剩余文件大小除splitSize大于1.1时,循环继续,小于1.1时退出循环,将剩下的文件大小归到一个切片上去。

// 128MB
 long blockSize = file.getBlockSize();
 // 128MB
 long splitSize = computeSplitSize(blockSize, minSize, maxSize);
 // 文件的大小 260MB
 long bytesRemaining = length;
 // 第一次 260/128=2.x > 1.1
 // 第二次 132/128=1.03 <1.1 不执行循环
 while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
   // 获取块的索引
   int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
   // 将块的信息保存到splits集合中
   splits.add(makeSplit(path, length-bytesRemaining, splitSize,
               blkLocations[blkIndex].getHosts(),
               blkLocations[blkIndex].getCachedHosts()));
   // 260-128=132MB
   bytesRemaining -= splitSize;
 }
 // 将剩余的132MB添加到splits集合中
if (bytesRemaining != 0) {
int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
splits.add(makeSplit(path, length-bytesRemaining, bytesRemaining,
           blkLocations[blkIndex].getHosts(),
           blkLocations[blkIndex].getCachedHosts()));
}

FileInputFormat中默认的切片机制:

  1. 简单地按照文件的内容长度进行切片
  2. 切片大小,默认等于block大小,可以通过调整参数修改,注意1.1的问题
  3. 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片
  4. 一个切片(split)对应一个MapTask事例
  5. 一个job的map阶段并行度由客户端在提交job时决定
比如待处理数据有两个文件:
    file1.txt    260M
    file2.txt    10M
经过FileInputFormat的切片机制运算后,形成的切片信息如下
    file1.txt.split1--  0~128
    file1.txt.split2--  128~260
    file2.txt.split1--  0~10M。

由此可知每个文件的剩余大小小于1.1时都会被切成一片

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MapReduce是一种用于处理大规模数据集的编程模型和算法。它由Google提出,并被广泛应用于分布式计算领域。编写MapReduce程序可以帮助我们高效地处理大规模数据,实现并行计算和分布式处理。 编写MapReduce程序主要包括两个步骤:编写Map函数和编写Reduce函数。 1. Map函数:Map函数是对输入数据进行处理的函数。它将输入数据划分为若干个小的数据块,并为每个数据块生成一个键值对。Map函数的输入是一组键值对,输出也是一组键值对。在Map函数中,我们可以根据具体需求对输入数据进行处理,例如提取关键词、计算频率等。 2. Reduce函数:Reduce函数是对Map函数输出的键值对进行合并和处理的函数。它将具有相同键的值进行合并,并生成一个新的键值对。Reduce函数的输入是一组具有相同键的值,输出是一个新的键值对。在Reduce函数中,我们可以根据具体需求对输入数据进行聚合、计算统计量等操作。 编写MapReduce程序的一般步骤如下: 1. 定义Map函数和Reduce函数的输入输出格式。 2. 实现Map函数,对输入数据进行处理,并生成键值对。 3. 实现Reduce函数,对具有相同键的值进行合并和处理,并生成新的键值对。 4. 配置MapReduce程序的输入和输出路径。 5. 提交MapReduce程序并运行。 编写MapReduce程序可以使用多种编程语言,例如Java、Python等。在Java中,可以使用Hadoop框架提供的API来编写MapReduce程序。在Python中,可以使用Hadoop Streaming或者PySpark等工具来编写MapReduce程序
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值