sparkSQL调优，sparkStreaming调优

最新推荐文章于 2024-10-21 16:16:59 发布

一鸣888

最新推荐文章于 2024-10-21 16:16:59 发布

阅读量153

点赞数 1

文章标签：大数据数据仓库 spark

本文链接：https://blog.csdn.net/HelloWowofei/article/details/132121035

版权

sparkSQL调优，sparkStreaming调优

问题分析：

主要考察的就是sparkSql以及sparkStreaming的调优问题。

核心答案讲解：

SparkSql调优

spark.hadoopRDD.ignoreEmptySplits

默认是false，如果是true，则会忽略那些空的splits，减小task的数量。

spark.hadoop.mapreduce.input.fileinputformat.split.minsize

是用于聚合input的小文件，用于控制每个mapTask的输入文件，防止小文件过多时候，产生太多的task.

spark.sql.autoBroadcastJoinThreshold && spark.sql.broadcastTimeout

用于控制在spark sql中使用BroadcastJoin时候表的大小阈值，适当增大可以让一些表走BroadcastJoin，提升性能，但是如果设置太大又会造成driver内存压力，而broadcastTimeout是用于控制Broadcast的Future的超时时间，默认是300s，可根据需求进行调整。

spark.sql.adaptive.enabled && spark.sql.adaptive.shuffle.targetPostShuffleInputSize

该参数是用于开启spark的自适应执行，这是spark比较老版本的自适应执行，后面的targetPostShuffleInputSize是用于控制之后的shuffle 阶段的平均输入数据大小，防止产生过多的task。

intel大数据团队开发的adaptive-execution相较于目前spark的ae更加实用，该特性也已经加入到社区3.0之后的roadMap中，令人期待。

spark.sql.parquet.mergeSchema

默认false。当设为true，parquet会聚合所有parquet文件的schema，否则是直接读取parquet summary文件，或者在没有parquet summary文件时候随机选择一个文件的schema作为最终的schema。

spark.sql.files.opencostInBytes

该参数默认4M，表示小于4M的小文件会合并到一个分区中，用于减小小文件，防止太多单个小文件占一个分区情况。

spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version

1或者2，默认是1. MapReduce-4815 详细介绍了 fileoutputcommitter 的原理，实践中设置了 version=2 的比默认 version=1 的减少了70%以上的 commit 时间，但是1更健壮，能处理一些情况下的异常。

sparkstreaming调优

① Spark Streaming 中需要大量的序列化和反序列化操作，在2.0.0以上的 Spark 版本中，我们应当优先考虑使用 Kryo 序列化方式。

② 对于非常大的变量，如配置信息，可以提前利用广播变量的方式传送给每一个节点。

③ 在流式处理系统中，我们需要兼顾数据的接收和数据处理，即消费数据的速率要赶上生产数据的速率。当发现生产数据速率过慢时，可以考虑增加并行度，使用更多的接收器（Receiver）；如果处理速度过慢，可以考虑加机器、优化程序逻辑及 GC 优化等方式。

④ Spark 内存分为执行类内存和存储类内存，执行类内存可以剥夺存储类内存空间，但是存储类内存空间有一个最低阈值会保证保留。

⑤ 内存优化最简单的方式是使用序列化格式进行对象存储，另外一方面考虑到 Java/Scala 对象本身会有所开销，应尽可能减少对象的数量。

⑥ 对于 Spark 而言，垃圾回收采用 G1GC，而 Spark Streaming 采用 CMS。

问题扩展

spark调优比较复杂，但是大体可以分为三个方面来进行，1）平台层面的调优：防止不必要的jar包分发，提高数据的本地性，选择高效的存储格式如parquet，2）应用程序层面的调优：过滤操作符的优化降低过多小任务，降低单条记录的资源开销，处理数据倾斜，复用RDD进行缓存，作业并行化执行等等，3）JVM层面的调优：设置合适的资源量，设置合理的JVM，启用高效的序列化方法如kyro，增大off head内存等等。