简单理解MapReduce与Shuffle

shuffle是一个数据重新分配的过程.

shuffle的英文释义就是”洗牌
假设集群(5台机器)里有一个机器A存储了一份数据, 数据里面是一份乱序的扑克牌
现在有个任务是计算不同花色的卡牌的数量
MapReduce是一个多台机器并行计算的过程, 所以如果用另外4台机器(B,C,D,F)来各自计算4个花色的卡牌数
将卡牌一张张取出来就是 map 过程(一对一)
就会需要把A里的卡牌(通过网络传输)分配到B,C,D,F机器上, 这个过程就叫做 shuffle
如果B,C,D,F机器把各自花色的卡牌数量合并, 然后所有机器的计算结果(result_B,result_C,result_D,result_F)又都返回给机器A进行合并, 这个过程就是 reduce(多对一)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值