spark一些

syc0616

于 2021-05-26 09:20:48 发布

阅读量82

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/syc0616/article/details/117279833

版权

本文介绍了Spark Streaming中反压机制的重要性，用于控制批处理时间并提升集群资源利用率。讨论了如何启用反压，以及关键参数`spark.streaming.backpressure.enabled`和`spark.streaming.kafka.maxRatePerPartition`的设置。同时，提出了在处理Kafka数据时的速率预估和限流策略，以及在何种场景下需要启用反压。最后，建议通过优化代码和调整`batch Duration`来提高Spark Streaming的性能。

摘要由CSDN通过智能技术生成

解决方案：

　　先创建sparkSession，然后再通过SparkSession去创建StreamingContext

SparkStreaming流控制

其中也提到了开启反压的缘由：一个批次的数据应该在一个批次内处理完，即batch process time应该接近于batch Duration，如果batch处理时间总是比batch间隔时间长，就会不断增加调度延迟时间而且数据也会在内存里堆积，进而增加系统不稳定性；另一方面，如果batch处理时间总是远远小于batch间隔时间，则集群资源利用率不高，也是一种资源浪费。

控制批处理时间的关键在batch接收的数据量和业务逻辑处理复杂度，往往前者起了决定性作用，反压机制就可以动态控制batch接收消息速率，来适配集群处理能力。

速率预估

启用反压也比较简单：sparkConf.set("spark.streaming.backpressure.enabled", "true")。spark会在作业执行结束后，调用RateController.onBatchCompleted更新batch的元数据信息：batch处理结束时间、batch处理时间、调度延迟时间、batch接收到的消息量等.