scala spark 学习资料
https://blog.csdn.net/lovehuangjiaju
Spark性能优化指南——基础篇
https://tech.meituan.com/2016/04/29/spark-tuning-basic.html
Spark性能优化指南——高级篇
https://tech.meituan.com/2016/05/12/spark-tuning-pro.html
超全spark性能优化总结 - 一块小蛋糕的文章 - 知乎
https://zhuanlan.zhihu.com/p/108454557
Spark优化那些事(4)-关于spark.driver.maxResultSize的疑惑
Spark性能优化指南——基础篇:
// 传统的join操作会导致shuffle操作。
// 因为两个RDD中,相同的key都需要通过网络拉取到一个节点上,由一个task进行join操作。
val rdd3 = rdd1.join(rdd2)
coalesce操作
一个stage的所有task都执行完毕之后,会在各个节点本地的磁盘文件中写入计算中间结果
当我们在代码中执行了cache/persist等持久化操作时,根据我们选择的持久化级别的不同,每个task计算出来的数据也会保存到Executor进程的内存或者所在节点的磁盘文件中。