Notice 这篇文章的内容相对核心,只有理解kafka offset的管理逻辑才能实现准确的实时计算目标,而实时计算部分更倾向于通过写各类Transformer算子和Action算子,这部分内容相对好理解。 该文将主要讨论以下两类问题(预告): 1、在Kafka与Spark Streaming组合的这个实时计算搭档里,背压问题涉及到自动调整Spark Streaming实时计算的速率,以便让计算处理能力跟接收消息的能力匹配 2、为何要自行管理offset以及如何实现?