hadoop的map和reduce

hadoop的计算过程mapreduce,分为map阶段和reduce阶段。

map阶段又分为五个阶段:read--map--collect--spill--merge,read阶段主要是读取数据,送到map函数,生成(key,value)。collect主要是生成(partition,key,value),collect在内存中存储的数据达到一定阈值时,将会吧collect阶段的内存中数据spill(溢出)到磁盘中,最后merge阶段是把spill数据进行归并排序,生成一个大文件,因此每个map阶段都只会生成一个大文件。

map每次读取split的数据(一行一行的读取)后先放在buffer缓冲区中,然后进行分区、排序、当缓冲区满了之后,会进行溢写磁盘。磁盘中会生成很多个溢写小文件,而这些小文件内部是有序的,但小文件和小文件之间是无序的,所以需要进行一次归并形成一个全盘有序的文件。

reduce阶段分为三个阶段:copy--sort--reduce,copy阶段主要是从map阶段相应的分区并行去拉取数据,sort阶段对copy过来的数据进行全局排序,将排序结果送进reduce函数处理,处理完成后最后保存到hdfs。

我们所说的shuffle(奇迹发生的地方)包括collect--spill--merge--copy--sort这五个阶段。

另外名词解释:hadoop的二次排序:hadoop数据在排序时是以key进行排序的,所谓二次排序是指对key进行排序前提下对value进行排序。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值