MapReduce详细流程介绍(图文并茂)

4 篇文章 0 订阅
3 篇文章 0 订阅

在这里插入图片描述
详解:整个数据处理流程分为map task 和reduce task 两部分,map task负责map阶段的数据处理,reduce task负责reduce阶段的数据处理。
map task 读文件的时候通过InputFormat中将文本进行切片,再通过RecordReader中的read方法将文件内容读取,返回键值对,key是文本的行号,value是对应的该行的值,然后我们使用Mapper中的map方法对键值对进行处理形成新的键值对,每个键值对都会调用一次map方法。
然后通过context的write方法将数据写入OutputCollector收集器中。
OutputCollector会把键值对写入环形缓冲区,环形缓冲区中有两个指针负责分配存入数据的位置以及将缓冲区的数据溢出,在溢出之前会将数据进行分区以及排序,数据比较大的时候最后自己设置分区方式,防止默认分区造成的数据倾斜,每个分区内的数据会根据关键字进行排序,不同分区的按照区值进行排序。数据在写入缓冲区的过程中会进行不断的spill溢出数据到文件夹,数据大的时候会溢出多个文件,这些文件会被merge归并排序成大的文件。
下面就是reduce task,先进行数据的迁移,因为文件存在于不同的节点上,reduce task会根据不同的分区号到map任务中的不同节点那把区号相同的拷贝过来,拷贝过来后还会将这几个同一分区的文件归并排序到一个文件中。
然后可以用迭代器将数据一组的传过来让我们用reduce方法再去逻辑处理。最后通过输出流将数据写入到结果文件中。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值