MapReduce中shuffle到底是啥?

文章讲述了分布式计算引擎在数据处理过程中,shuffle操作的重要性,它占总处理时间的60%以上。通过数据分割和并行处理,遇到复杂业务需求时,服务器间需交互数据进行重组,可能涉及磁盘存储以优化数据重新组合的过程。
摘要由CSDN通过智能技术生成

        分布式计算引擎进行数据处理的过程中会有shuffle操作,通俗将叫洗牌,专业叫数据的重新组合。

        shuffle过程会占到整个数据处理过程的百分之六十以上,分布式计算引擎之所以可以做到数据的高效处理是因为一开始就把要处理的数据平均分成了多份,每个服务器并行处理其中一份;但是对于一些比较复杂的数据处理来说光并行还不够,为了满足一些复杂的业务需求服务器之间的数据还需要进一步交互,比如服务器1需要跟服务器2,服务器3需要跟服务器4上面的数据进行重组、合并,这个时候就只能把这些个需要重新合并的数据再次输入到其他服务器上,为了更好的完成数据的这种重新组合需要将一部分数据写入到磁盘中来协助完成这个过程,这种将原本分布在多台服务器上的数据通过某种业务规则进行重新合并的过程就是shuffle了。

  • 6
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值