Hadoop学习笔记(四):Shuffle阶段

本文深入解析Hadoop Shuffle阶段,包括Partition、Sort、Spill和Merge过程,旨在减少网络带宽消耗与磁盘IO,提高数据处理效率。通过Partition确定reduce任务,Spill策略避免内存溢出,Sort确保数据有序,Merge整合溢出文件,最后在reduce端进行数据合并与reduce操作。
摘要由CSDN通过智能技术生成
1. 定义
      shuffle是指map任务输出到reduce任务输入的过程。

2. 目的
        在Hadoop集群中,大部分map任务与reduce任务在不同的节点执行。因此,reduce任务在执行时需要跨节点去获取map的输出结果。如果集群上有很多作业,那么网络资源消耗会很严重,需要最大化减少不必要的资源。另外,如果map的输出和reduce的输入只是简单的磁盘读写操作,那么磁盘IO时间将对作业完成时间产生较大影响,应该减少磁盘IO的影响。
      所以,shuffle阶段的目的有两个:
     <1>在跨节点获取map输出时,尽可能减少网络带宽不必要的消耗。
     <2>优化内存使用,减少磁盘IO操作。

3. shuffle过程解析
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值