kafka消费者

塞上江南o

已于 2023-03-04 21:22:25 修改

阅读量789

点赞数 1

分类专栏： Kafka 文章标签： kafka

于 2019-10-10 14:12:42 首次发布

本文链接：https://blog.csdn.net/qq_43192537/article/details/101678224

版权

6 篇文章 0 订阅

订阅专栏

consumer采用pull（拉）模式从broker中读取数据

push（推）模式很难适应消费速率不同的消费者，因为消息发送速率是由broker决定的，它的目标是尽可能以最快速度传递消息，但是这样很容易造成consumer来不及处理消息，典型的表现就是拒绝服务以及网络拥塞，而pull模式则可以根据consumer的消费能力以适当的速率消费消息

pull模式不足之处是，如果kafka没有数据，消费者可能会陷入循环中，一直返回空数据针对这一点，Kafka的消费者在消费数据时会传入一个时长参数timeout，如果当前没有数据可供消费，consumer会等待一段时间之后再返回，这段时长即为timeout

先了解一下offset

由于consumer在消费过程中可能会出现断电宕机等故障，consumer恢复后，需要从故障前的位置的继续消费，所以consumer需要实时记录自己消费到了哪个offset，以便故障恢复后继续消费

Kafka 0.9版本之前，consumer默认将offset保存在Zookeeper中，从0.9版本开始，consumer默认将offset保存在Kafka一个内置的topic中，该topic为__consumer_offsets

__consumer_offsets主题里面采用key和value的方式存储数据。key是group.id+topic+分区号，value就是当前offset的值。每隔一段时间，kafka内部会对这个topic进行compact

kafka 消费者工作流程

在这里插入图片描述

在这里插入图片描述

coordinator（消费者组协调器）：辅助实现消费者组的初始化和分区的分配
coordinator节点选择= groupid的hashcode值% 50 (50为系统偏移量主题__consumer_offsets的分区数量)。例如：groupid的hashcode值=1，1%50=1，那么_consumer_offsets 主题的1号分区在哪个broker上，就选择这个节点的coordinator作为这个消费者组的老大，消费者组下的所有的消费者提交offset的时候就往这个分区去提交offset

在这里插入图片描述

在这里插入图片描述

一个consumer group中有多个consumer组成，一个topic有多个parttion组成，现在的问题是，到底由哪个consumer来消费哪个partition的数据
Kafka有四种主流的分区分配策略: Range、RoundRobin、Sticky、CooperativeSticky

可以通过配置参数partition.assignment.strategy，修改分区的分配策路。默认策路是Range + CooperativeSticky。Kafka可以同时使用多个分区分配策略