1,尽量少生成RDD
2,尽量少进行算子操作,如果不能减少,则尽量合并算子,一次进行多个算子操作。
3,尽量少进行shuffle,shuffle是性能杀手,还有可能引起数据倾斜等严重问题。
4,大数据开发,性能第一。因为大数据的特性决定,数据量非常大,执行时间长,所以性能必须第一。
1,尽量少生成RDD
2,尽量少进行算子操作,如果不能减少,则尽量合并算子,一次进行多个算子操作。
3,尽量少进行shuffle,shuffle是性能杀手,还有可能引起数据倾斜等严重问题。
4,大数据开发,性能第一。因为大数据的特性决定,数据量非常大,执行时间长,所以性能必须第一。