1.shuffer概念
map方法之后,reduce方法之前混洗的过程,叫做shuffer。
2.shuffer过程
2.1map阶段
1.map结果在进入环形缓冲区之前,先进行getpartition()分区,作用:标记数据是哪个分区的,然后进入环形缓冲区,待缓冲区达到阈值(0.8)后,才批量将数据写入磁盘(产生大量溢写文件)
1.shuffer概念
map方法之后,reduce方法之前混洗的过程,叫做shuffer。
2.shuffer过程
2.1map阶段
1.map结果在进入环形缓冲区之前,先进行getpartition()分区,作用:标记数据是哪个分区的,然后进入环形缓冲区,待缓冲区达到阈值(0.8)后,才批量将数据写入磁盘(产生大量溢写文件)