Druid Kafka索引服务的Task动态伸缩_org.apache.druid.indexing.kafka.incrementalpublish-CSDN博客

本文链接：https://blog.csdn.net/weixin_38736107/article/details/98474160

本文介绍了Druid Kafka索引服务的工作原理，包括KafkaSupervisor的启动过程和TaskGroup概念。在实践中遇到的问题是手动调整taskCount带来的高人力成本和资源浪费。为了解决这些问题，文章提出了动态伸缩模块的设计与实现，包括检测异常状态、伸缩策略配置和调整过程。实验证明，动态伸缩能有效跟随Kafka Lag波动，提高资源利用率，平均节省20%的资源，但尚无法解决短暂的毛刺问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、Kafka Indexing Service 运行原理

1、简介

Kafka Indexing Service 是 Druid 推出的利用 Druid 的索引服务实时消费 Kafka 数据的插件。该插件会在 Overlord 中启动一个 supervisor，supervisor 启动之后会负责创建task、调度task到Middlemanager中运行，并管理监控整个task的生命周期，而这些 task会连接到Kafka集群消费topic数据，并完成索引创，用户需要做的就是准备一个数据消费格式文件，之后通过 REST API 手动启动 supervisor，一个数据源对应一个supervisor。

2、KafkaSupervisor启动过程

3. KafkaSupervisor 重要数据结构

KafkaSupervisor用于消费kafka的task的数量是由用户提交数据消费格式文件中的taskCount进行配置的，一个task可能消费一个或多个kafka partition,partition的编号被哪个task消费存在这样的一个映射关系：Id = partition % taskCount，用户可以通过配置文件中的replicas 为一个task设置多个副本，这样几个副本会消费相同的partition，由于副本机制，KafkaSupervisor有了一个TaskGroup的概念，TaskGroup中的task消费的partition相同。

Kafka索引任务存在两种状态, reading 状态和publish状态，当task读取数据到达duration配置的时间，则进行publish状态，publish也会持续completionTimeout 时间，当task进入publish状态的时候立马又创建下一轮的任务开始从上一轮的task消费到的位置开始reading，这么一直不停地交错进行。Supervisor 也维护这两个队列用于存放两种状态的task，并且还维护一个全局的kafka 分区与offset的映射关系表：