spark shuffle及shuffle类的算子

最新推荐文章于 2023-10-12 12:18:40 发布

哥伦布112

最新推荐文章于 2023-10-12 12:18:40 发布

阅读量1.5k

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/u013939918/article/details/106694018

版权

Spark Shuffle操作有两种特点：一是新版本中，默认内存缓存为100kb，避免内存溢出，但可能导致频繁磁盘写操作；二是与MapReduce不同，Spark不默认排序，允许ResultTask实时拉取数据，提高效率，但也限制了某些特定操作。shuffle操作主要由repartition、byKey和join类算子触发。可以通过调整内存缓存大小优化Shuffle过程。

摘要由CSDN通过智能技术生成

Spark Shuffle操作的两个特点
第一个特点，
在Spark早期版本中，那个bucket缓存是非常非常重要的，因为需要将一个ShuffleMapTask所有的数据都写入内存缓存之后，才会刷新到磁盘。但是这就有一个问题，如果map side数据过多，那么很容易造成内存溢出。所以spark在新版本中，优化了，默认那个内存缓存是100kb，然后呢，写入一点数据达到了刷新到磁盘的阈值之后，就会将数据一点一点地刷新到磁盘。
这种操作的优点，是不容易发生内存溢出。缺点在于，如果内存缓存过小的话，那么可能发生过多的磁盘写io操作。所以，这里的内存缓存大小，是可以根据实际的业务情况进行优化的。
第二个特点，
与MapReduce完全不一样的是，MapReduce它必须将所有的数据都写入本地磁盘文件以后，才能启动reduce操作，来拉取数据。为什么？因为mapreduce要实现默认的根据key的排序！所以要排序，肯定得写完所有数据，才能排序，然后reduce来拉取。
但是Spark不需要，spark默认情况下，是不会对数据进行排序的。因此ShuffleMapTask每写入一点数据，ResultTask就可以拉取一点数据，然后在本地执行我们定义的聚合函数和算子，进行计算。
spark这种机制的好处在于，速度比mapreduce快多了。但是也有一个问题，mapreduce提供的reduce，是可以处理每个key对应的value上的，很方便。但是spark中，由于这种实时拉取的机制，因此提供不了，直接处理key对应的values的算子，只能通过groupByKey