sparkstreaming调优
基于receiver接收器的调优
现在很少使用receiver方式了,相关调优方式了解即可
调整BolckReceiver数量
BolckReceiver数量默认是1
代码示例
val kafkaStream = {
val sparkStreamingConsumerGroup = "spark-streaming-consumer-group"
val kafkaParams = Map(
"zookeeper.connect" -> "node01:2181,node02:2181,node03:2181",
"group.id" -> "spark-streaming-test")
val inputTopic = "test"
val numPartitionsOfInputTopic = 3
val streams = (1 to numPartitionsOfInputTopic) map {x =>
KafkaUtils.createStream(ssc, kafkaParams, Map(inputTopic -> 1), StorageLevel.MEMORY_ONLY_SER).map(_._2)
}
val unifiedStream = ssc.union(streams)
调整block数量
batchInterval : 触发批处理的时间间隔
blockInterval :将接收到的数据生成Block的时间间隔,spark.streaming.blockInterval(默认是200ms),那么,BlockRDD的分区数 = batchInterval / blockInterval,即一个Block就是RDD的一个分区,就是一个task
比如,batchInterval是2秒,而blockInterval是200ms,那么task数为10,如果task的数量太少,比一个executor的core数还少的话,那么可以减少blockInterval,blockInterval最好不要小于50ms,太小的话导致task数太多,那么launch task的时间久多了
代码示例
val conf: SparkConf= new SparkConf().setAppName("socketWD").setMaster("local[2]").set("spark.streaming.blockInterval", "50")
调整receiver接受速率
当数据源生产数据速度过快时,可以考虑更改接受速率,避免数据堆积
pps:permits per second 每秒允许接受的数据量(QPS -> queries per second)
Spark Streaming默认的PPS是没有限制的,可以通过参数spark.streaming.receiver.maxRate来控制,默认是Long.Maxvalue
调整数据处理的并行度
对于receiver模式,可以调整BlockRDD的分区数
-
通过Receiver接受数据的特点决定
-
也可以自己通过repartition设置
- repartition会产生shuffle,慎用
ShuffleRDD的分区数
主要有两种方式设置ShuffleRDD分区数:
-
默认的分区数为spark.default.parallelism(core的大小)
-
通过我们自己设置决定
val wordCounts = words.map(x => (x, 1)).reduceByKey((a: Int, b: Int) => a + b, new HashPartitioner(10))
数据的序列化
SparkStreaming两种需要序列化的数据:
- 输入的数据:默认是以
StorageLevel.MEMORY_AND_DISK_SER_2
的形式存储在executor上的内存中 - 缓存的数据:默认是以
StorageLevel.MEMORY_ONLY_SER
的形式存储的内存中
使用Kryo序列化机制,比Java序列化机制性能好
val conf = new SparkConf().setMaster(...).setAppName(...)
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)
内存调优
- 需要内存大小
//updateStateByKey需要统计历史所有Key
//Winodws指窗口函数
和transformation的类型有关,如果使用的是updateStateByKey,Window这样的算子,那么内存就要设置得偏大
- 数据存储级别
如果把接收到的数据设置的存储级别是MEMORY_DISK这种级别,也就是说如果内存不够可以把数据存储到磁盘上,其实性能还是不好的,性能最好的就是所有的数据都在内存里面,所以如果在资源允许的情况下,把内存调大一点,让所有的数据都存在内存里面。
Output Operations性能
- 保存结果到外部的存储介质中,比如mysql/hbase数据库
- 批量提交数据,而不是每一个SQL提交一遍
- 批量提交数据,而不是每一个SQL提交一遍
开启压力反馈
从Spark1.5版本开始支持压力反馈
spark.streaming.backpressure.enabled = true
成产过程可能出现以下两种情况
- 每个批次都在处理完数据后有大量空余时间
- 每个批次在指定时间内不能处理完数据
在master中查看每个批次处理时间
- 如果每个批次都在处理完数据后有大量空余时间,告诉数据源加大输出
- 如果每个批次在指定时间内不能处理完数据,告诉数据源减小输出
Elastic Scaling(资源动态分配)
从Spark2.0开始支持开启资源动态分配
spark.streaming.dynamicAllocation.enabled = true
动态分配资源:
批处理动态的决定这个application中需要多少个Executors:
- 当一个Executor空闲的时候,将这个Executor杀掉
- 当task太多的时候,动态的启动Executors
Streaming分配Executor的原则是比对 process time / batchInterval 的比率
如果延迟了,那么就自动增加资源
数据倾斜调优
数据倾斜的本质要处理的数据中,具有某种特征的key太多了,积压到某一个分区被一个task处理。
sparkstreaming底层就是RDD,调优方法通用。具体方法参考之前的sparkcore调优