sparkstreaming sparkstreaming调优

基于receiver接收器的调优

现在很少使用receiver方式了,相关调优方式了解即可

调整BolckReceiver数量

BolckReceiver数量默认是1
代码示例

val kafkaStream = {  
  val sparkStreamingConsumerGroup = "spark-streaming-consumer-group"  
  val kafkaParams = Map(  
    "zookeeper.connect" -> "node01:2181,node02:2181,node03:2181",  
    "group.id" -> "spark-streaming-test")  
  val inputTopic = "test"  
  val numPartitionsOfInputTopic = 3  
  val streams = (1 to numPartitionsOfInputTopic) map  {x =>  
    KafkaUtils.createStream(ssc, kafkaParams, Map(inputTopic -> 1),      StorageLevel.MEMORY_ONLY_SER).map(_._2)  
  }  
  val unifiedStream = ssc.union(streams)  

调整block数量

batchInterval : 触发批处理的时间间隔
blockInterval :将接收到的数据生成Block的时间间隔,spark.streaming.blockInterval(默认是200ms),那么,BlockRDD的分区数 = batchInterval / blockInterval,即一个Block就是RDD的一个分区,就是一个task
比如,batchInterval是2秒,而blockInterval是200ms,那么task数为10,如果task的数量太少,比一个executor的core数还少的话,那么可以减少blockInterval,blockInterval最好不要小于50ms,太小的话导致task数太多,那么launch task的时间久多了

代码示例

val conf: SparkConf= new SparkConf().setAppName("socketWD").setMaster("local[2]").set("spark.streaming.blockInterval", "50")

调整receiver接受速率

当数据源生产数据速度过快时,可以考虑更改接受速率,避免数据堆积

pps:permits per second 每秒允许接受的数据量(QPS -> queries per second)
Spark Streaming默认的PPS是没有限制的,可以通过参数spark.streaming.receiver.maxRate来控制,默认是Long.Maxvalue

调整数据处理的并行度

对于receiver模式,可以调整BlockRDD的分区数

  • 通过Receiver接受数据的特点决定

  • 也可以自己通过repartition设置

    • repartition会产生shuffle,慎用

ShuffleRDD的分区数
主要有两种方式设置ShuffleRDD分区数:

  • 默认的分区数为spark.default.parallelism(core的大小)

  • 通过我们自己设置决定

val wordCounts = words.map(x => (x, 1)).reduceByKey((a: Int, b: Int) => a + b, new HashPartitioner(10))

数据的序列化

SparkStreaming两种需要序列化的数据:

  • 输入的数据:默认是以StorageLevel.MEMORY_AND_DISK_SER_2的形式存储在executor上的内存中
  • 缓存的数据:默认是以StorageLevel.MEMORY_ONLY_SER的形式存储的内存中
    使用Kryo序列化机制,比Java序列化机制性能好
val conf = new SparkConf().setMaster(...).setAppName(...)
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

内存调优

  • 需要内存大小
//updateStateByKey需要统计历史所有Key
//Winodws指窗口函数
和transformation的类型有关,如果使用的是updateStateByKey,Window这样的算子,那么内存就要设置得偏大
  • 数据存储级别
如果把接收到的数据设置的存储级别是MEMORY_DISK这种级别,也就是说如果内存不够可以把数据存储到磁盘上,其实性能还是不好的,性能最好的就是所有的数据都在内存里面,所以如果在资源允许的情况下,把内存调大一点,让所有的数据都存在内存里面。

Output Operations性能

  • 保存结果到外部的存储介质中,比如mysql/hbase数据库
    • 批量提交数据,而不是每一个SQL提交一遍
      在这里插入图片描述
      在这里插入图片描述

开启压力反馈

从Spark1.5版本开始支持压力反馈

spark.streaming.backpressure.enabled = true

成产过程可能出现以下两种情况

  • 每个批次都在处理完数据后有大量空余时间
  • 每个批次在指定时间内不能处理完数据
    在这里插入图片描述

在master中查看每个批次处理时间

  • 如果每个批次都在处理完数据后有大量空余时间,告诉数据源加大输出
  • 如果每个批次在指定时间内不能处理完数据,告诉数据源减小输出

在这里插入图片描述

Elastic Scaling(资源动态分配)

从Spark2.0开始支持开启资源动态分配

spark.streaming.dynamicAllocation.enabled = true

动态分配资源:

批处理动态的决定这个application中需要多少个Executors:

  • 当一个Executor空闲的时候,将这个Executor杀掉
  • 当task太多的时候,动态的启动Executors

Streaming分配Executor的原则是比对 process time / batchInterval 的比率

在这里插入图片描述
如果延迟了,那么就自动增加资源
在这里插入图片描述

数据倾斜调优

数据倾斜的本质要处理的数据中,具有某种特征的key太多了,积压到某一个分区被一个task处理。
sparkstreaming底层就是RDD,调优方法通用。具体方法参考之前的sparkcore调优

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值