扫一扫加入大数据公众号和技术交流群,了解更多大数据技术,还有免费资料等你哦
反压背景
在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候,也就是每个批次数据处理的时间要比 Spark Streaming 批处理间隔时间长;越来越多的数据被接收,但是数据的处理速度没有跟上,导致系统开始出现数据堆积,可能进一步导致 Executor 端出现 OOM 问题而出现失败的情况。
本文介绍了Spark Streaming的反压机制,包括反压背景、核心原理和使用方法,强调了反压对解决数据积压和提高处理效率的重要性。同时,文章探讨了Spark的推测执行,说明了其工作原理,并提供了相关参数调整建议,以优化任务执行速度。

订阅专栏 解锁全文
1021

被折叠的 条评论
为什么被折叠?



