mapreduce原理

Q1: reduce的方式是将一个类型的key,送给同一个节点。比如说,把good都送给第一个节点。till送给第二个节点。那么如果做到这一点呢?

答:使用hash表的方式,一个key,放在hash表里面,就会产生一个为一个code(java 里面的数据结构是 hashcode),

      然后再给它取余数。

比如机器有四个节点,做reduce,那么就取余4,这样计算的任务就分给四台机器。这个就是shuffl机制。(shuffl就是洗牌的意思)(这个算法其实就是哈希取模的算法)

 

Q2: map 执行完成之后,中间结果保存在哪里?


map函数输出的中间结果key/value数据在内存中进行缓存,然后周期性的写入磁盘

每个map函数在写入磁盘之前,通过哈希函数,将自己的key/value对分割成R份。(R是reduce的个数 哈希函数一般是 用key对r进行哈希取模,这样将map函数的中间数据分割成r份,每一份分给一个reduce)。

当某个reduce任务的worker接收到master的通知,其通过rpc远程调用 将map任务产生的m份属于自己的文件远程拉取到本地。


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值