第 7 章 MapReduce的工作机制

剖析MapReduce 作业运行机制

静态图:

MapReduce 作业运行机制

动态图:

MapReduce 作业运行机制

进度和状态的更新

进度和状态的更新

失败

  • map任务或reduce 任务中的用户代码抛出运行异常
  • JVM突然退出
  • 节点管理器运行失败
  • 资源管理器运行失败
    • 获得高可用性,HA, 在双机热备模式下,运行一对资源管理器是必要的

shuffle 和排序

  • MapReduce 确保每个reducer 的输入都是按键排序的。系统执行排序、将map输出作为输入传给reducer的过程称为shuffle.

  • map 端

    map 函数开始产生输出时,并不是简单地将它写入到磁盘。这个过程更为复杂,它利用缓冲的方式写到内存并出于效率的考虑进行预排序。

    每个map任务都有一个环形内存缓冲区用于存储任务存储任务输出。在默认情况下,缓冲区的大小为100Mb,这个值可以通过改变mapreduce.task.io.sort.mb性来调整。一但锾冲内容达到阈值(mapreduce.map.sort.spill.percent,默认为0.80,或80%),一个后台线程便开始把内容溢出(spill)到磁盘。在溢出写到磁盘过程中,map输出继续写到缓冲区,但如果在此期间缓冲区被填满,map会被阻塞直到写磁盘过程完成。溢出写过程按轮询方式将缓冲区中的内容写到mapreduce.cluster.local.dir属性在作业特定子目录下指定的目录中。

    在写磁盘之前,线程首先根据数据最终要传的reducer把数据划分成相应的分区(partition)。在每个分区中,后台线程按键进行内存中排序,如果有一个combiner函数,它就在排序后的输出上运行。运行combiner函数使得map输出结果更紧凑,因此减少写到磁盘的数据和传递给reducer的数据。

    每次内存缓冲区达到溢出阈值,就会新建一个溢出文件(spill file),因此在map任务写完其最后一个输出记录之后,会有几个溢出文件。在任务完成之前,溢出文件被合并成一个已分区且已排序的输出文件。配置属性mapreduce.task.io.sort.factor控制着一次最多能合并多少流,默认值是10。

    如果至少存在3个溢出文件(通过mapreduce.map.combine.minspills属性设置)时,则combiner就会在输出文件写到磁盘之前再次运行。前面曾讲过,combiner可以在输人上反复运行,但并不影响最终结果。如果只有1或2个溢出文件,那么由于map输出规模减少,因而不值得调用combiner带来的开销,因此不会为该map输出再次运行combiner。

    在将压缩map输出写到磁盘的过程中对它进行压缩往往是个很好的主意,因为这样会写磁盘的速度更快,节约磁盘空间,并且减少传给reducer的数据量。在默认情况下,输出是不压缩的,但只要将mapreduce.map.output.compress设置为true,就可以轻松启用此功能。使用的压缩库由mapreduce.map.output.compress.codec指定。

    reducer通过HTTP得到输出文件的分区。用于文件分区的工作线程的数量由任务的mapreduce.shuffle.max.threads属性控制,此设置针对的是每一个节点管理器,而不是针对每个map任务。默认值0将最大线程数设置为机器中处理器数量的两倍。

    • reduce 端
    • 配置调优
      • 给shuffle 过程尽量多提供内存空间
      • 写map函数和reduce 函数时尽量少用内存,不应该无限使用内存
      • 在map端,可以通过避免多次溢出写磁盘来获得最佳性能
      • 在reduce端,中间数据全部驻留在内存时,就能获得最佳性能

任务的执行

  • 推测执行 并行执行过程中,对于拖后腿的任务,Hadoop不会尝试诊断或修复执行缓慢的任务,相反,在一个任务运行比预期慢的时候,它会尽量检测,并启动另一个相同的任务作为备份。这就是所谓的“推测执行”
  • OutputCommitters

hadoop MapReduce 使用一个提交协议来确保作业和任务都完全成功或失败。这个行为通过对作业使用OutputCommitters 来实现

转载于:https://my.oschina.net/mrq/blog/3101862

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值