map reduce的工作流程

mapreduce工作流程:wordcount

    1.文件分割,每一个split对应一个mapper

    2.mapper进行映射,(word,1)

    3.map-shuffle 对map结果的key根据reducer的个数进行hash写入缓冲区(key,value,partition),当缓冲区的大小占用了80%左右,将缓冲区的数据写入磁盘,并根据partition、key进行排序,生成一个/多个溢写文件。同时,不影响剩余20%的数据写入缓冲区。

    4.若客户端定义了combiner,在写溢写文件时将相同的key的value值相加。此种情况仅适用于输入key/value与输出key/value类型完全一致。​将多个溢写文件的key /value进行merge,生成一个group(word,[7,9,9],partition?)。

       一个map task端生成一个结果文件。

    5.reduce-shuffle

      当5%的map task完成任务后,reducer task通过http方式从map task 拷贝数据。数据会保存到内存中,当超过内存的阈值后,开始写入溢写文件,直到map无文件生成。溢写文件不断merge(可能是根据partitionmerge??)生成一个最终文件。

    4.将局部merge的结果输入reducer,进行归并。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值