1 RDD 复用
在对 RDD 进行算子时, 要避免相同的算子和计算逻辑之下对 RDD 进行重复的计算,
优化前如图
优化后如图
2 RDD 持久化
在 Spark 中,当多次对同一个 RDD 执行算子操作时, 每一次都会对这个 RDD以之前的父 RDD 重新计算一次,这种情况是必须要避免的,对同一个 RDD 的重复计算是对资源的极大浪费,因此, 必须对多次使用的 RDD 进行持久化,通过持久化将公共 RDD 的数据缓存到内存/磁盘中, 之后对于公共 RDD 的计算都会从内存/磁盘中直接获取 RDD 数据。
对于 RDD 的持久化,有两点需要说明:
第一, RDD 的持久化是可以进行序列化的, 当内存无法将 RDD 的数据完整的进行存放的时候,可以考虑使用序列化的方式减小数据体积,将数据完整存储在内存中。
第二, 如果对于数据的可靠性要求很高,并且内存充足,可以使用副本机制,对 RDD 数据进行持久化。当持久化启用了复本机制时,对于持久化的每个数据单元都存储一个副本,放在其他节点上面,由此实现数据的容错,一旦一个副本数据丢失,不需要重新计算,还可以使用另外一个副本。
3 RDD 尽可能早的 filter 操作
获取到初始 RDD 后,应该考虑尽早地过滤掉不需要的数据,进而减少对内存的占用,从而提升 Spark 作业的运行效率。