shuffle就是打乱重新分组是将不同分区的数据打乱后重新分组,在分布式系统中涉及到磁盘的读写和网络的数据传输,是直接影响网络性能和吞吐量的操作,因此优化程序时要尽量减少shuffle的操作shuffle是划分stage的标准,如果一个job有n个shuffle,则就划分成n+1个stagestage内是窄依赖,前后stage时间是宽依赖shuffle存在写缓存和读缓存的操作