Spark Core - 提高 RDD join 的性能
Spark 作为分布式的计算框架,最为影响其执行效率的地方就是频繁的网络传输。所以一般的,在不存在数据倾斜的情况下,想要提高 Spark job 的执行效率,就尽量减少 job 的 shuffle 过程(减少 job 的 stage),或者退而减小 shuffle 带来的影响,join 操作也不例外。
所以,针对 spark RDD 的 join 操作的使用,提供一下几条建议:
尽量减少参与 j...
原创
2019-02-11 16:29:22 ·
701 阅读 ·
0 评论