中心思想:
在一个kafka消费者组(consumer group)中,同一个topic的不同分区会分配给不同的消费者进行消费。每一次consumer group的初始建立以及每一个consumer的上下线都将触发分区的重分配,也就是rebalance。那么这个为消费者分配分区的动作是由谁来完成,consumer端还是kafka server端?分区又是如何进行分配的呢? 对于这个问题,kafka经过了以下一系列的优化升级。
友情提示:
本文部分内容摘抄自《apache kafka源码剖析》,后期源码可能会有新的优化,本文仅供参考,具体请以官网最新发布为准。
优化历程:
-
zookeeper存储consumer元数据信息的方式
kafka最开始为消费者分配分区是通过zookeeper的watcher实现的。每个consumer group在zookeeper下都维护了一个“consumers/[group_id]/ids”路径,在此路径下使用临时节点记录属于此consumer group的消费者id,由consumer启动时创建。与ids同级的另外两个节点分别是:用于记录分区与对应消费者关系的owners节点以及consumer group在每个partition上的消费位置的offsets节点。
每个consumer都分别在“consumers/[group_id]/ids”和“brokers/ids”上注册一个watcher。当有消费者上下线或者kafka集群broker增减时,就可以被watcher监控到。
方案缺陷:
(1)羊群效应