Map阶段环形缓冲区详细分析

在这里插入图片描述

Map阶段环形缓冲区详细分析

  • 这几天不是很忙,抽了点闲着的时间回头看了一下hadoop,看到map阶段的环形缓冲区想到自己刚开始的的时候每太弄明白,这次好好仔细看了一下,顺便把学习成果记录了下来
  • 在map阶段,每个map都有一个环形缓冲区,用于存储map的输出。这个环形缓冲区的默认大小是100MB,一旦数据达到我们的阈值0.8(可修改)的时候,会有一个后台线程将内容溢写到磁盘的指定目录下的一个新建的文件中。
  • 在这里插入图片描述
  • 内容溢写出去以后形成一个个文件,我们首先键这些文件进行分区排序得到一个排序后的文件
  • 这是会为每个文件的不同分区进行一个简单的combiner聚合操作(主要是为了减少数据量,减少后面所需要的IO的时间)
  • 我们将一个map产生的不同的文件进行一个简单的合并 在进行压缩后shuffle的磁盘中
  • 然后就就是后面的reduce操作了
  • 结合上面的图来说 这个过程还是很简单明了的
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值