kafka之Consumer消费者基本概念

概念

消费者

消费者(Consumer)即读取Kafka集群中某些topic消息的程序,kafka中消费者分为两种类型:

  • 消费者组 (consumer group)
  • 独立消费者 (standalong consumer)

独立消费者仅一个消费者实例(consumer instance)进行对消息的处理,而消费者组则是多个消费者构成一个整体对消息进行处理。

消费者组

消费者使用一个消费者组名(group.id)标记自身,topic中的每条小心仅会被发送到一个group中的一个consumer实例中进行处理,即消费者组有如下三个特性:

  1. 一个consumer group可能有多个consumer实例或单个实例

  2. topic的一条消息只会给到一个组中的一个consumer实例

  3. topic中的一条消息会被发送到多个group中

kafka中的两种消息模型,队列和发布订阅,就是通过consumer group实现的:

  • 队列模型:所有的Consumer实例都属于一个group,即一条消息仅被消费一次

  • 发布/订阅模型:所有的Consumer实例都单独使用一个group,即一条消息会被广播到所有消费者

topic中的分区会被均匀的分配给consumer group中的实例,当组内的某个consumer挂了后,group会将崩溃consumer负责的分区转交给其他consumer负责,如下图:

某topic有4个分区,被分配在broker1、2上,消费组1里仅有两个Consumer,所以每个Consumer负责2个分区,而消费者2有4个Consumer,每个Consumer仅负责1个分区。

kafka仅提供单个分区内的消息顺序,并不会维护全局的消息顺序,如果要实现topic全局消息的读取顺序,可通过每个group下仅分配一个consumer 实例来实现。

消费者位移(consumer offset)

每个consumer实例会为其消费的分区维护一个属于自己的位置信息,用于记录当前消费了多少条消息,即offset,

offset由consumer group进行保存,而非broker,如果由broker保存将带来以下问题:

  1. broker变成有状态的,增加同步成本,影响伸缩性

  2. 需要引入应答机制(acknowledgement)确认消费成功

  3. 维护consumer的offset要额外引入复杂的数据结构

由consumer group实现的好处是:

  1. 仅需保存一个长整型数据,避免复杂的数据结构

  2. 由 checkpointing (检查点机制) 定期对offset进行持久化,简化应答机制

  3. broker因为无需维护consumer的offset,更加轻量级

consumer内部使用一个map来进行topic分区的offset保存,大致为:

group.id:test-group = {topicA-0: 8, topicA-1: 6},即test-group这个组对分区topicA-0消费到了8这个offset的位置,第二个消费到了6这个offset的位置。

位移提交

consumer需要定时向kafka集群汇报自己的消费数据的进度,该过程被称为位移提交(offset commit),位移提交既表示消费者的消费进度,又决定了consumer端的消费语义保证,

唯一提交后,会被保存到kafka的一个内部topic上,该topic以两个下划线开头,名为 __consumer_offsets

__consumer_offsets 由kafka自行创建,在kafka的日志目录下通常会有名为 __consumer_offsets 开头的文件夹 (__consumer_offsets-0 ... 50),

每个文件夹中至少有一个日志文件(.log)和两个索引文件(.index和.timeindex),用于保存consumer的位移信息,

每条消息在 __consumer_offsets 中的消息格式类似一个KV对,key是一个三元组 group.id + topic + 分区号,value就是offset的值。

由于消息是追加的,相同的key消息会因为提交不停的增多,kafka会定期对该topic进行 compact (压实操作),为每个key仅保留最新的offset消息,以此控制日志文件的容量大小。

为了避免过多的consumer同时提交位移加重单一 __consumer_offsets 的写入负载,因此 __consumer_offsets 分区有50个,

在进行唯一提交时,对group.id进行哈希求模运算,将写入负载到不同的 __consumer_offsets 分区中,降低写入压力。

消费者组重平衡(consumer group rebalance)

平衡主要是针对一个组中多个消费者的均匀消费来说的,如何协调好多个消费者消费不同的消息,是rebalance要做的事情,

rebalance本质上是一种协议,其规定一个组下所有consumer如何达成一致来订阅topic中的所有分区,例如一个topic中有100个分区,

A Group中有50个消费者,在正常情况下,应该为50个消费者,每个分配2个分区进行消费,这个分配过程被称为rebalance。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值