Spark 性能相关参数配置详解-压缩与序列化篇

作者:刘旭晖 Raymond 转载请注明出处

Email:colorant at 163.com

BLOG:http://blog.csdn.net/colorant/


随着Spark的逐渐成熟完善越来越多的可配置参数被添加到Spark中来本文试图通过阐述这其中部分参数的工作原理和配置思路和大家一起探讨一下如何根据实际场合对Spark进行配置优化。


由于篇幅较长,所以在这里分篇组织,如果要看最新完整的网页版内容,可以戳这里:http://spark-config.readthedocs.org/,主要是便于更新内容


压缩和序列化相关

 

spark.serializer

 

默认为org.apache.spark.serializer.JavaSerializer, 可选org.apache.spark.serializer.KryoSerializer, 实际上只要是org.apache.spark.serializer的子类就可以了,不过如果只是应用,大概你不会自己去实现一个的。

 

序列化对于spark应用的性能来说,还是有很大影响的,在特定的数据格式的情况下,KryoSerializer的性能可以达到JavaSerializer10倍以上,当然放到整个Spark程序中来考量,比重就没有那么大了,但是以Wordcount为例,通常也很容易达到30%以上的性能提升。而对于一些Int之类的基本类型数据,性能的提升就几乎可以忽略了。KryoSerializer依赖TwitterChill库来实现,相对于JavaSerializer,主要的问题在于不是所有的Java Serializable对象都能支持。

 

需要注意的是,这里可配的Serializer针对的对象是Shuffle数据,以及RDD Cache等场合,而Spark Task的序列化是通过spark.closure.serializer来配置,但是目前只支持JavaSerializer,所以等于没法配置啦。

 

更多Kryo序列化相关优化配置,可以参考 http://spark.apache.org/docs/latest/tuning.html#data-serialization 一节

 

 

spark.rdd.compress

 

这个参数决定了RDD Cache的过程中,RDD数据在序列化之后是否进一步进行压缩再储存到内存或磁盘上。当然是为了进一步减小Cache数据的尺寸,对于Cache在磁盘上而言,绝对大小大概没有太大关系,主要是考虑DiskIO带宽。而对于Cache在内存中,那主要就是考虑尺寸的影响,是否能够Cache更多的数据,是否能减小Cache数据对GC造成的压力等。

 

这两者,前者通常不会是主要问题,尤其是在RDD Cache本身的目的就是追求速度,减少重算步骤,用IOCPU的情况下。而后者,GC问题当然是需要考量的,数据量小,占用空间少,GC的问题大概会减轻,但是是否真的需要走到RDDCache压缩这一步,或许用其它方式来解决可能更加有效。

 

所以这个值默认是关闭的,但是如果在磁盘IO的确成为问题或者GC问题真的没有其它更好的解决办法的时候,可以考虑启用RDD压缩。

 

 

spark.broadcast.compress

 

是否对Broadcast的数据进行压缩,默认值为True

 

Broadcast机制是用来减少运行每个Task时,所需要发送给TASKRDD所使用到的相关数据的尺寸,一个Executor只需要在第一个Task启动时,获得一份Broadcast数据,之后的Task都从本地的BlockManager中获取相关数据。在1.1最新版本的代码中,RDD本身也改为以Broadcast的形式发送给Executor(之前的实现RDD本身是随每个任务发送的),因此基本上不太需要显式的决定哪些数据需要broadcast了。

 

因为Broadcast的数据需要通过网络发送,而在Executor端又需要存储在本地BlockMananger中,加上最新的实现,默认RDD通过Boradcast机制发送,因此大大增加了Broadcast变量的比重,所以通过压缩减小尺寸,来减少网络传输开销和内存占用,通常都是有利于提高整体性能的。

 

什么情况可能不压缩更好呢,大致上个人觉得同样还是在网络带宽和内存不是问题的时候,如果DriverCPU资源很成问题(毕竟压缩的动作基本都在Driver端执行),那或许有调整的必要。

 

 

spark.io.compression.codec

 

RDD CacheShuffle数据压缩所采用的算法Codec,默认值曾经是使用LZF作为默认Codec,最近因为LZF的内存开销的问题,默认的Codec已经改为Snappy

 

LZFSnappy相比较,前者压缩率比较高(当然要看具体数据内容了,通常要高20%左右),但是除了内存问题以外,CPU代价也大一些(大概也差20%~50%?)

 

在用于Shuffle数据的场合下,内存方面,应该主要是在使用HashShuffleManager的时候有可能成为问题,因为如果Reduce分区数量巨大,需要同时打开大量的压缩数据流用于写文件,进而在Codec方面需要大量的buffer。但是如果使用SortShuffleManager,由于shuffle文件数量大大减少,不会产生大量的压缩数据流,所以内存开销大概不会成为主要问题。

 

剩下的就是CPU和压缩率的权衡取舍,和前面一样,取决于CPU/网络/磁盘的能力和负载,个人认为CPU通常更容易成为瓶颈。所以要调整性能,要不不压缩,要不使用Snappy可能性大一些?

 

对于RDD Cache的场合来说,绝大多数场合都是内存操作或者本地IO,所以CPU负载的问题可能比IO的问题更加突出,这也是为什么spark.rdd.compress 本身默认为不压缩,如果要压缩,大概也是Snappy合适一些?




  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
概述: Spark Streaming是Apache Spark的一个组件,它提供了实时数据处理的能力。它可以从各种数据源(如Kafka、Flume、Twitter、HDFS等)中读取数据,并将其转换为DStream(离散流)进行处理。Spark Streaming提供了与Spark相同的API,因此可以使用Spark的所有功能来处理实时数据。 基本概念: 1. DStream:离散流,是Spark Streaming的基本抽象。它代表了一个连续的数据流,可以通过一系列的转换操作进行处理。 2. 输入源:Spark Streaming可以从多种输入源中读取数据,如Kafka、Flume、Twitter、HDFS等。 3. 转换操作:Spark Streaming提供了与Spark相同的API,可以使用各种转换操作对DStream进行处理,如map、filter、reduceByKey等。 4. 输出操作:Spark Streaming可以将处理后的数据输出到多种输出源中,如HDFS、数据库、Kafka等。 性能调优: 1. 调整批处理间隔:Spark Streaming的批处理间隔决定了数据处理的延迟和吞吐量。较小的批处理间隔可以提高实时性,但会增加系统负载和网络开销。 2. 调整并行度:并行度决定了Spark Streaming的处理能力。可以通过增加Executor数量、调整Executor内存等方式来提高并行度。 3. 使用持久化存储:Spark Streaming可以使用持久化存储来缓存数据,减少数据读取和处理的开销。 4. 使用数据压缩:数据压缩可以减少数据传输的开销,提高系统吞吐量。 5. 避免数据倾斜:数据倾斜会导致某些Executor负载过重,影响系统性能。可以通过调整数据分区、使用随机键等方式来避免数据倾斜。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值