Spark streaming实时计算程序的性能优化

最新推荐文章于 2020-07-29 00:22:49 发布

Johnson8702

最新推荐文章于 2020-07-29 00:22:49 发布

阅读量515

点赞数

分类专栏： Spark Streaming 文章标签： Spark Streaming 性能优化

本文链接：https://blog.csdn.net/Johnson8702/article/details/88191288

版权

Spark Streaming 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、并行化数据接收

这个方法在处理多个topic的数据是比较有效。

int numStreams = 5;

List<JavaPairDStream<String, String>> kafkaStreams = new ArrayList<JavaPairDStream<String, String>>(numStreams);

for (int i = 0; i < numStreams; i++) {

kafkaStreams.add(KafkaUtils.createStream(...));

}

JavaPairDStream<String, String> unifiedStream = streamingContext.union(kafkaStreams.get(0), kafkaStreams.subList(1, kafkaStreams.size()));

unifiedStream.print()

二、调节blockInterval参数

主旨：增加block数量，增加每个batch rdd的partition的数量，增加处理的并行度。

receiver从数据源源源不断地获取到数据，首先会按照block interval，将指定时间间隔的数据收集到一个block；默认时间是200ms，官方推荐不要小于50ms；然后会将指定batch interval时间间隔内的block合并为一个batch，创建为一个rdd，然后启动一个job去处理这个batch rdd中的数据。

batch rdd的partition数量的确定：一个batch有多少个block，就有多少个partition，就意味着并行度是多少，意味着每个batch rdd有多少个task会并行计算和处理。

我们希望可以闭默认的task数量和并行度再多一些，可以手动调节block interval，减少block interval的数值，让每个batch可以包含更多的block，有更多的partition，也就有更多的task并行处理每个batch rdd。