MapReduce

MapReduce

  • shuffle
    • 一个MapReduce作业经过了input、map、combine、reduce、output五个阶段,其中combine阶段并不一定发生,map输出的中间结果被分发到reducer的过程被称为shuffle。
    • shuffle阶段还会发生copy和sort。

Reduce任务默认会在Map任务数量完成5%后才开始启动。

  • Map任务的执行过程
    • 通过用户指定的InputFormat类中的getSplits方法和next方法将输入文件切片并解析成键值对作为map函数的输入;
    • map函数经过处理之后输出并中间结果交给指定的Partitioner处理,确保中间结果分发到指定的Reduce任务处理,此时如果用户制定了Combiner,将执行combine操作;
    • map函数将中间结果保存到本地。
  • Reduce任务的执行过程
    • 将已经完成的Map任务的中间结果复制到Reduce任务所在的节点;
    • 复制完成后,以key进行排序,通过排序,将所有key相同的数据交给reduce函数处理;
    • 处理完成后,结果直接输出到HDFS。

  • Input
    • MapReduce首先用FileInputFormat将作为输入的HDFS上的文件切分形成输入分片,每个InputSplit将作为一个Map任务的输入,再将InputSplit解析为键值对。InputSplit的大小和数量对于MapReduce作业的性能有非常大的影响。
    • InputSplit只是逻辑上对输入数据进行分片,并不会将文件在磁盘上切成分片进行存储。InputSplit只记录了分片的元数据信息,例如起始位置、长度以及所在的节点列表等。
    • 数据切分的算法需要确定InputSplit的个数,对于HDFS上的文件,FileInputFormat类使用computeSplitSize方法计算InputSplit的大小:
protected long computeSplitSize(long blockSize, long minSize, long maxSize) {
        return Math.max(minSize, Math.min(maxSize, blockSize));
    }

其中minSizemapred-site.xml文件中的配置项mapred.min.split.size决定,默认为1;
maxSizemapred-site.xml文件中的配置项mapred.max.split.size决定,默认为9223372036854775807;
blockSize也是由hdfs-site.xml文件中的配置项dfs.block.size决定,默认为64(67108864字节)MB。
InputSplit的大小的确定公式为:

max(mapred.min.split.size, Math.min(mapred.max.split.size, dfs.block.size))

InputSplit的数量为文件大小除以InputSplitSize。InputSplit的元数据信息:

splits.add(new FileSplit(path,length - bytesRemaining,splitSize,blkLocations[blkIndex].getHosts()));

文数据的信息由四部分组成:
1. 文件路径
2. 文件开始的位置
3. 文件结束的位置
4. 数据块所在的host。
Map的处理单位为一个InputSplit。InputSplit是一个逻辑概念,InputSplit所包含的数据仍然是存储在HDFS块里。
InputSplit可以不和块对齐,一个InputSplit的大小可以大于也可以小于一个块的大小。
- InputSplit大小和块大小尽量相同:
+ Hadoop在任务调度的时候,优先考虑本节点的数据,如果本节点没有可处理的数据或者是还需要其他节点的数据,Map任务所在的节点会从其他节点将数据通过网络传输给自己。
+ 当InputSplit的容量大于块的容量,Map任务就必须从其他节点读取一部分数据,这样就不能实现完全数据本地性。

当输入文件切分为InputSplit后,由FileInputFormat的子类createRecordReader方法将InputSplit解析为键值对:

public RecordReader<LongWritable, Text> createRecordReader(InputSplit split, TaskAttemptContext context) {
        String delimiter = context.getConfiguration().get("textinputformat.record.delimiter");
        byte[] recordDelimiterBytes = null;
        if (null != delimiter) {
            recordDelimiterBytes = delimiter.getBytes(Charsets.UTF_8);
        }

        return new LineRecordReader(recordDelimiterBytes);
    }
  • map及中间结果输出
    • InputSplit将解析好的键值对交给map函数处理,处理后的中间结果会写到本地磁盘(不是HDFS)上,在刷写磁盘的过程中,还做了partition和sort操作。
    • map函数产生输出时,不是简单地刷写磁盘。为了保证I/O效率,先写到内存的环形缓冲区,并做一次预排序(快速排序)。
      • 默认缓冲区大小为100MB,该值可以通过mapred-site.xml文件中的io.sort.mb配置项配置。一旦缓冲区内容达到阈值(mapred-site.xml文件中的io.sort.spill.percent值决定,默认为0.80),一个后台线程将缓冲区的内容溢写到磁盘。
      • 在写磁盘过程中map函数继续输出到缓冲区,如果缓冲区满,则阻塞map直到写磁盘完成。
      • 写磁盘会以轮询的方式写到mapred.local.dir配置指定的目录。
    • 写磁盘之前,线程会根据数据最终要传送到的Reducer把缓冲区的数据划分相应的分区(默认按照键)。在每个分区中,后台线程按键进行内排序,此时如果有一个Combiner,会在排序后的输出上运行。
    • 一旦内存缓冲区达到溢出的阈值,就新建一个溢出写文件,因此在Map任务写完其最后一个输出记录之后,会有若干个溢出写文件。
    • Map任务完成之前,溢出写文件被合并成一个已分区且已排序的输出文件作为map输出的中间结果,就是map任务的输出结果。
    • 如果指定了Combiner且溢出写次数至少为3时,Combiner就会在输出文件写到磁盘之前运行。Combiner的意义在于map输出的中间结果更紧凑,使得本地磁盘和传给Reducer的数据更少。
    • 为了提高磁盘I/O性能,可以考虑压缩map的输出,这样会让写磁盘的速度更快,节约磁盘空间,从而使传送给Reducer的数据量更少。默认map输出不压缩,可以在mapred-site.xml配置mapred.compress.map.output为true开启压缩。压缩库由mapred-site.xml文件的配置项mapred.map.output.compression.codec指定。
    • map输出的中间结果存储的格式为IFile,IFile是一种支持行压缩的存储格式。
    • Reducer通过HTTP方式得到输出文件的分区。将map输出的中间结果发送到Reducer的工作线程的数量由mapred-site.xml文件的tasktracker.http.threads配置,此配置针对每个节点,即每个TaskTracker,而不是每个Map任务,默认为40。
  • Shuffle(上面说了从Map到中间结果溢写磁盘的过程,所以这里Shuffle只讲Reduce任务获取Map任务输出的过程)
    • Reduce可能需要多个Map任务的输出作为其特殊的分区文件。每个Map任务完成时间可能不同,只要有一个任务完成,Reduce任务就开始复制其输出(copy),Reduce任务有少量的复制线程,可以并行取得Map任务的输出,默认是5个线程,该值可以通过设置mapred-site.xmlmapred.reduce.parallel.copies的配置项来改变。
    • 如果map输出很小,会被复制到Reducer所在的TaskTracker的内存缓冲区,缓冲区大小由mapred-site.xml中的mapred.job.shuffle.input.buffer.percent配置指定。否则,map输出将会被复制到磁盘。一旦内存缓冲区大小(mapred.job.shuffle.input.buffer.percent)或文件数(mapred.inmen.merge.threshold)达到阈值,则合并后写到磁盘中。
    • 随着溢写到磁盘的文件增多,后台线程将它们合并为更大的、有序的文件。为了合并,压缩的中间结果将在内存中解压缩。
    • 复制完所有的map输出,shuffle进入sort阶段(归并排序)。合并map的输出文件,并维持其顺序排序。排序过程循环进行,如果有50个map输出文件,且合并因子(io.sort.factor)为10,合并操作将进行5次,每次将10个文件合并成一个文件,最后有5个文件,由于文件数小于合并因子,不会再进行合并,直接将5个文件交给reduce函数。

Map任务处理的是一个InputSplit,而Reduce任务处理的是所有Map任务同一个分区的中间结果。

  • reduce
    • 经过shuffle处理后的文件调用reduce函数处理,由于经过了shuffle处理,文件按键分区且有序,对相同分区的文件调用一次reduce函数处理。
    • 一般输出到HDFS。
  • sort
    • 当map函数产生输出时,会首先写入内存的缓冲区,当达到设定的阈值,刷写磁盘之前,后台线程会将缓冲区的数据划分成相应的分区。在每个分区中,后台线程按键进行内排序。
    • 在Map任务完成之前,磁盘上存在多个已经分好区,排好序、大小和缓冲区一样的溢写文件,这时溢写文件合并成一个已分区且已排序的输出文件。由于溢写文件已经结果第一次排序,所以合并文件时只需再做一次排序就可使输出文件整体有序。
    • shuflle阶段,需要将多个Map任务的输出文件合并,由于经过第二次排序,所以合并文件时只需再做一次排序就可使输出文件整体有序。
    • 这三次排序第一次是在内存缓冲区做的内排序,使用快速排序。
    • 第二次和第三次都是在文件合并阶段发生的,使用归并排序。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值