spark中RSS工具简介_spark rss-CSDN博客

本文链接：https://blog.csdn.net/hzp666/article/details/123062071

本文介绍了Spark Shuffle的过程，包括数据划分、文件合并和索引生成，以及 ShuffleRead 阶段的数据获取。针对 Shuffle 的性能问题，特别是大量小块数据的随机读取，提出了 RSS（Remote Shuffle Service）方案。RSS 在 Shuffle 写入阶段直接写入远程服务，减少磁盘使用，并在读取时通过 HDFS 备份提高稳定性，减少网络请求和数据碎片，提升 Shuffle 性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、Spark Shuffle

对于 spark shuffle 这一过程，网络上有非常多的文章进行说明，这里简单描述介绍下。

Spark 包含三种 shuffle writer，上图展示的是 BypassMergeSortShuffleWriter （有兴趣的用户可以自行阅读社区源码），以此为例简单介绍 spark shuffle。

Shuffle Writer 会将每个 shuffle write task 的数据，按照一定的规则进行划分，比如说 hash（具体什么规则是通过 rdd 之间的 transform 进行设定的，也可以用户自行设定 rdd 的 Partitioner），并对应的写到临时文件中。在所有数据写完之后，会将这些临时文件合并成一个文件，并生成 index 文件用于索引每个 reduce task 数据所对应的部分。

当所有的 shuffle write task 完成后，会进入到 shuffle read stage，并启动 shuffle read task。

shuffle read task，会读取之前所有 shuffle write task 所产生的 shuffle 数据中对应为自己的某一部分。如上图右边所示，每个 task 内的数据来源与左边的 task 颜色一致。

（为了简单理解，可能部分并不准确，准确的理解可以直接查看社区源码）

二、RSS 是什么

spark shuffle 的问题

上面简单介绍完之后，我们可以发现，对于一次 shuffle read，需要读取前面 m 个 shuffle write task 所产生的对应自己的那一部分，所以一个 shuffle read task 需要读取 m 个 task，如果一次 shuffle read 包含 r 个 task，那么就需要读取 m * r 个 block。

我们假设一次 shuffle 的数据量是 100 GB，m 和 r 都是 1000，那么平均来说，一个 block 的大小是 100 GB / (1000 * 1000) = 104 kb。总共需要 100w 次网络请求，每次需要读取 104 kb。

这个会带来大量的随机读，随机读小块数据，也会带来极低的 shuffle read 性能，更糟糕的是，如果 shuffle read 性能过低，很有可能触发 FetchFailedException，从而导致 shuffle write task 的重算，进一步增大了 shuffle 的时长。