sparkstreaming sparkstreaming调优

最新推荐文章于 2021-05-28 22:37:29 发布

爱吃甜食_

最新推荐文章于 2021-05-28 22:37:29 发布

阅读量397

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/a3125504x/article/details/108502726

版权

Spark 专栏收录该内容

36 篇文章 0 订阅

订阅专栏

sparkstreaming调优

基于receiver接收器的调优
调整数据处理的并行度
数据的序列化
内存调优
Output Operations性能
开启压力反馈
Elastic Scaling(资源动态分配)
数据倾斜调优

基于receiver接收器的调优

现在很少使用receiver方式了，相关调优方式了解即可

调整BolckReceiver数量

BolckReceiver数量默认是1
代码示例

val kafkaStream = {  
  val sparkStreamingConsumerGroup = "spark-streaming-consumer-group"  
  val kafkaParams = Map(  
    "zookeeper.connect" -> "node01:2181,node02:2181,node03:2181",  
    "group.id" -> "spark-streaming-test")  
  val inputTopic = "test"  
  val numPartitionsOfInputTopic = 3  
  val streams = (1 to numPartitionsOfInputTopic) map  {x =>  
    KafkaUtils.createStream(ssc, kafkaParams, Map(inputTopic -> 1),      StorageLevel.MEMORY_ONLY_SER).map(_._2)  
  }  
  val unifiedStream = ssc.union(streams)

调整block数量

batchInterval : 触发批处理的时间间隔
blockInterval :将接收到的数据生成Block的时间间隔，spark.streaming.blockInterval(默认是200ms)，那么，BlockRDD的分区数 = batchInterval / blockInterval，即一个Block就是RDD的一个分区，就是一个task
比如，batchInterval是2秒，而blockInterval是200ms，那么task数为10，如果task的数量太少，比一个executor的core数还少的话，那么可以减少blockInterval，blockInterval最好不要小于50ms，太小的话导致task数太多，那么launch task的时间久多了

代码示例

val conf: SparkConf= new SparkConf().setAppName("socketWD").setMaster("local[2]").set("spark.streaming.blockInterval", "50")

调整receiver接受速率

当数据源生产数据速度过快时，可以考虑更改接受速率，避免数据堆积

pps:permits per second 每秒允许接受的数据量(QPS -> queries per second)
Spark Streaming默认的PPS是没有限制的,可以通过参数spark.streaming.receiver.maxRate来控制，默认是Long.Maxvalue

调整数据处理的并行度

对于receiver模式，可以调整BlockRDD的分区数

通过Receiver接受数据的特点决定
也可以自己通过repartition设置
- repartition会产生shuffle，慎用

ShuffleRDD的分区数
主要有两种方式设置ShuffleRDD分区数：

默认的分区数为spark.default.parallelism(core的大小)
通过我们自己设置决定

val wordCounts = words.map(x => (x, 1)).reduceByKey((a: Int, b: Int) => a + b, new HashPartitioner(10))

数据的序列化

SparkStreaming两种需要序列化的数据：

输入的数据：默认是以StorageLevel.MEMORY_AND_DISK_SER_2的形式存储在executor上的内存中
缓存的数据：默认是以StorageLevel.MEMORY_ONLY_SER的形式存储的内存中
使用Kryo序列化机制，比Java序列化机制性能好

val conf = new SparkConf().setMaster(...).setAppName(...)
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

内存调优

需要内存大小

//updateStateByKey需要统计历史所有Key
//Winodws指窗口函数
和transformation的类型有关，如果使用的是updateStateByKey，Window这样的算子，那么内存就要设置得偏大

数据存储级别

如果把接收到的数据设置的存储级别是MEMORY_DISK这种级别，也就是说如果内存不够可以把数据存储到磁盘上，其实性能还是不好的，性能最好的就是所有的数据都在内存里面，所以如果在资源允许的情况下，把内存调大一点，让所有的数据都存在内存里面。

Output Operations性能

保存结果到外部的存储介质中，比如mysql/hbase数据库
- 批量提交数据，而不是每一个SQL提交一遍

开启压力反馈

从Spark1.5版本开始支持压力反馈

spark.streaming.backpressure.enabled = true

成产过程可能出现以下两种情况

每个批次都在处理完数据后有大量空余时间
每个批次在指定时间内不能处理完数据

在master中查看每个批次处理时间

如果每个批次都在处理完数据后有大量空余时间，告诉数据源加大输出
如果每个批次在指定时间内不能处理完数据，告诉数据源减小输出

在这里插入图片描述

Elastic Scaling(资源动态分配)

从Spark2.0开始支持开启资源动态分配

spark.streaming.dynamicAllocation.enabled = true

动态分配资源：

批处理动态的决定这个application中需要多少个Executors：

当一个Executor空闲的时候，将这个Executor杀掉
当task太多的时候，动态的启动Executors

Streaming分配Executor的原则是比对 process time / batchInterval 的比率

在这里插入图片描述
如果延迟了，那么就自动增加资源

数据倾斜调优

数据倾斜的本质要处理的数据中，具有某种特征的key太多了，积压到某一个分区被一个task处理。
sparkstreaming底层就是RDD，调优方法通用。具体方法参考之前的sparkcore调优

爱吃甜食_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sparkstreaming sparkstreaming调优

sparkstreaming调优基于receiver接收器的调优调整BolckReceiver数量调整block数量调整receiver接受速率调整数据处理的并行度数据的序列化内存调优Output Operations性能开启压力反馈Elastic Scaling(资源动态分配)数据倾斜调优基于receiver接收器的调优现在很少使用receiver方式了，相关调优方式了解即可调整BolckReceiver数量BolckReceiver数量默认是1代码示例val kafkaStream = {
复制链接

扫一扫