Spark性能优化：开发调优篇

最新推荐文章于 2023-06-08 09:48:14 发布

星辰学院

最新推荐文章于 2023-06-08 09:48:14 发布

阅读量256

点赞数

分类专栏： spark

spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

spark调优分为几个方面：

1、开发调优

2、资源调优

3、数据倾斜调优

4、shuffle调优

开发调优

1、尽可能只读取一遍源数据

2、进行持久化

3、避免使用shuffle类算子

例如，Broadcast与map进行join代码示例

// 传统的join操作会导致shuffle操作。
// 因为两个RDD中，相同的key都需要通过网络拉取到一个节点上，由一个task进行join操作。
val rdd3 = rdd1.join(rdd2)

// Broadcast+map的join操作，不会导致shuffle操作。
// 使用Broadcast将一个数据量较小的RDD作为广播变量。
val rdd2Data = rdd2.collect()
val rdd2DataBroadcast = sc.broadcast(rdd2Data)

// 在rdd1.map算子中，可以从rdd2DataBroadcast中，获取rdd2的所有数据。
// 然后进行遍历，如果发现rdd2中某条数据的key与rdd1的当前数据的key是相同的，那么就判定可以进行join。
// 此时就可以根据自己需要的方式，将rdd1当前数据与rdd2中可以连接的数据，拼接在一起（String或Tuple）。
val rdd3 = rdd1.map(rdd2DataBroadcast...)

// 注意，以上操作，建议仅仅在rdd2的数据量比较少（比如几百M，或者一两G）的情况下使用。
// 因为每个Executor的内存中，都会驻留一份rdd2的全量数据。

4、使用map-side预聚合的shuffle操作

相当于MR中的combiner。

举例：基于reduceByKey和groupByKey进行单词计数

5、使用高性能的算子

A.使用reduceByKey/aggregateByKey替代groupByKey
B.使用mapPartitions替代普通map
C.使用foreachPartitions替代foreach
D.使用filter之后进行coalesce操作

E.使用repartitionAndSortWithinPartitions替代repartition与sort类操作

6、广播大变量

如果在map中使用其他变量，默认一个task一份数据；使用广播变量，则变为每个executor一份数据。

7、使用Kryo序列化

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

8、优化数组结构

以下是翻译原话：

Java中，有三种类型比较耗费内存：

对象，每个Java对象都有对象头、引用等额外的信息，因此比较占用内存空间。
字符串，每个字符串内部都有一个字符数组以及长度等额外信息。
集合类型，比如HashMap、LinkedList等，因为集合类型内部通常会使用一些内部类来封装集合元素，比如Map.Entry。

因此Spark官方建议，在Spark编码实现中，特别是对于算子函数中的代码，尽量不要使用上述三种数据结构，尽量使用字符串替代对象，使用原始类型（比如Int、Long）替代字符串，使用数组替代集合类型，这样尽可能地减少内存占用，从而降低GC频率，提升性能。

但是在笔者的编码实践中发现，要做到该原则其实并不容易。因为我们同时要考虑到代码的可维护性，如果一个代码中，完全没有任何对象抽象，全部是字符串拼接的方式，那么对于后续的代码维护和修改，无疑是一场巨大的灾难。同理，如果所有操作都基于数组实现，而不使用HashMap、LinkedList等集合类型，那么对于我们的编码难度以及代码可维护性，也是一个极大的挑战。因此笔者建议，在可能以及合适的情况下，使用占用内存较少的数据结构，但是前提是要保证代码的可维护性。

转载：https://blog.csdn.net/u012102306/article/details/51637366