Kafka学习 — 3 kafka消费者客户端，2024年Golang岗位BAT大厂面试题知识点小结

最新推荐文章于 2024-05-17 02:27:29 发布

2401_84281629

最新推荐文章于 2024-05-17 02:27:29 发布

阅读量770

点赞数 14

分类专栏： 2024年程序员学习文章标签： kafka 学习 golang

本文链接：https://blog.csdn.net/2401_84281629/article/details/137868215

版权

2024年程序员学习专栏收录该内容

43 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Golang全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注go）

正文

2.3消费者提供两个配置设置来控制poll循环：

三、代码示例
- 3.1 手动提交偏移量

3.2 精细控制提交的偏移量

四、订阅指定的分区
五、offset的存储地方
- 5.1 消费结果（数据）和offset存储在数据库中

5.2 每个消费者都有自己的offset，所以要管理自己的偏移，你只需要做到以下几点：

六、消费者控制消费的位置
七、消费者控制流量
八、多线程处理

一、偏移量和消费者的位置

1.1 偏移量

kafka为分区中的每条消息保存一个偏移量（offset），这个偏移量代表消息在该分区中唯一位置。

1.2 消费者持有的偏移量

消费者持有的偏移量，比实际该分区中消息所在的偏移量（offset）要大一个。消费者在调用poll(long)中接收消息时自动增长。

1.3 “已提交” 偏移量

“已提交”的位置是消费者已（处理的）安全保存的最后偏移量，如果进程失败或重新启动时，消费者将恢复到这个偏移量。消费者可以选择定期自动提交偏移量，也可以选择通过调用commit API来手动控制偏移量的变化(如：commitSync 和 commitAsync)。

二、消费者组和订阅主题

2.1 消费者组

消费者组：拥有相同group.id的消费者同属于一个消费者组；

kafka会将已订阅topic的消息发送到每个消费者组中。并通过平衡分区在消费者组中所有成员之间来达到平均。因此每个分区恰好地分配1个消费者（一个消费者组中）。所有如果一个topic有4个分区，并且一个消费者分组有只有2个消费者。那么每个消费者将消费2个分区。

消费者组的成员是动态维护的：如果一个消费者故障。分配给它的分区将重新分配给同一个分组中其他的消费者。同样的，如果一个新的消费者加入到分组，将从现有消费者中移一个给它。这被称为重新平衡分组。

当分组重新分配自动发生时，可以通过ConsumerRebalanceListener通知消费者，这允许他们完成必要的应用程序级逻辑，例如状态清除，手动偏移提交等。

消费者也可以通过使用assign(Collection)手动分配指定分区，如果使用手动指定分配分区，那么动态分区分配和协调消费者组将失效。

2.2 发现消费者故障

1、订阅一组topic后，当调用poll(long）轮询时，消费者将自动加入到组中。只要持续的调用poll轮询，消费者将一直保持可用，并继续从分配的分区中接收消息。此外，消费者向服务器定时发送心跳。如果消费者崩溃或无法在session.timeout.ms配置的时间内发送心跳，则消费者将被视为死亡，并且其分区将被重新分配。

2、还有一种可能，消费可能遇到“活锁”的情况，虽然它持续的发送心跳，但是没有处理。为了预防消费者在这种情况下一直持有分区，我们使用max.poll.interval.ms活跃检测机制。在此基础上，如果你调用的poll的频率大于最大间隔，则客户端将主动地离开组，以便其他消费者接管该分区。发生这种情况时，你会看到offset提交失败（调用commitSync（）引发的CommitFailedException）。这是一种安全机制，保障只有活动成员能够提交offset。所以要留在组中，你必须持续调用poll轮询。

2.3消费者提供两个配置设置来控制poll循环：

2.3.1 max.poll.interval.ms：增大poll的间隔，可以为消费者提供更多的时间去处理返回的消息（调用poll(long)返回的消息，通常返回的消息都是一批）。缺点是此值越大将会延迟组重新平衡。
max.poll.records：此设置限制每次调用poll返回的消息数，这样可以更容易的预测每次poll间隔要处理的最大值。通过调整此值，可以减少poll间隔，减少重新平衡分组的。

三、代码示例

3.1 手动提交偏移量

Properties props = new Properties();
props.put(“bootstrap.servers”, “localhost:9092”);
props.put(“group.id”, “test”);
props.put(“enable.auto.commit”, “false”);
props.put(“auto.commit.interval.ms”, “1000”);
props.put(“session.timeout.ms”, “30000”);
props.put(“key.deserializer”, “org.apache.kafka.common.serialization.StringDeserializer”);
props.put(“value.deserializer”, “org.apache.kafka.common.serialization.StringDeserializer”);
KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Arrays.asList(“foo”, “bar”));
final int minBatchSize = 200;
List<ConsumerRecord<String, String>> buffer = new ArrayList<>();
while (true) {
ConsumerRecords<String, String> records = consumer.poll(100);
for (ConsumerRecord<String, String> record : records) {
buffer.add(record);
}
if (buffer.size() >= minBatchSize) {
insertIntoDb(buffer);
consumer.commitSync();
buffer.clear();
}
}

在这个示例中，当接收的消息达到一定数量后将它们批量插入到数据库中。如果我们设置offset自动提交（之前说的例子），默认认为消费已消费完成这批消息。但有可能在批处理记录之后，插入到数据库之前失败了，因为已经自动提交，这样就没法再继续获取之前的消息。

为了避免这种情况，我们应该再记录插入数据库之后再手动提交偏移量。这样可以准确控制消息是成功消费的。提出一个相反的可能性：在插入数据库之后，但是在提交之前，这个过程可能会失败（即使这可能只是几毫秒，这是一种可能性）。在这种情况下，进程将获取到已提交的偏移量，并会重复插入的最后一批数据。这种方式就是所谓的“至少一次”保证，在故障情况下，可以重复。

使用手动偏移控制的优点是可以直接控制消息何时被视为“已消费”。

3.2 精细控制提交的偏移量

在某些情况下，你可以希望更精细的控制，通过指定一个明确消息的偏移量为“已提交”。在下面，我们的例子中，我们处理完每个分区中的消息后，提交偏移量。

try {
while(running) {
ConsumerRecords<String, String> records = consumer.poll(Long.MAX_VALUE);
for (TopicPartition partition : records.partitions()) {
List<ConsumerRecord<String, String>> partitionRecords = records.records(partition);
for (ConsumerRecord<String, String> record : partitionRecords) {
System.out.println(record.offset() + ": " + record.value());
}
long lastOffset = partitionRecords.get(partitionRecords.size() - 1).offset();
consumer.commitSync(Collections.singletonMap(partition, new OffsetAndMetadata(lastOffset + 1)));
}
}
} finally {
consumer.close();
}

四、订阅指定的分区

在前面的例子中，我们订阅我们感兴趣的topic，让kafka提供给我们平分后的topic分区。但是，在有些情况下，你可能需要自己来控制分配指定分区，例如：

4.1 如果这个消费者进程与该分区保存了某种本地状态（如本地磁盘的键值存储），则它应该只能获取这个分区的消息。

4.2 如果消费者进程本身具有高可用性，运行失败后会自动重新启动（可能使用集群管理框架如YARN，Mesos，或者AWS设施，或作为一个流处理框架的一部分）。在这种情况下，不需要Kafka检测故障，重新分配分区，因为消费者进程将在另一台机器上重新启动。
要使用此模式，你只需调用assign（Collection）消费指定的分区即可：

String topic = “foo”;
TopicPartition partition0 = new TopicPartition(topic, 0);
TopicPartition partition1 = new TopicPartition(topic, 1);
consumer.assign(Arrays.asList(partition0, partition1));

一旦手动分配分区，你可以在循环中调用poll（跟前面的例子一样）。消费者分组仍需要提交offset，只是现在分区的设置只能通过调用assign修改，因为手动分配分区后不会进行分组协调，因此消费者故障不会引发分区重新平衡。每一个消费者是独立工作的（即使和其他的消费者共享GroupId）。为了避免offset提交冲突，通常你需要确认每一个consumer实例的gorupId都是唯一的。
注意：手动分配分区（即，assgin）和动态分区分配的订阅topic模式（即，subcribe）不能混合使用。

五、offset的存储地方

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注Go）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
正的技术提升。**

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注Go）
[外链图片转存中…(img-glSksI0w-1713328602696)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2401_84281629

关注

14
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
Kafka学习 — 3 kafka消费者客户端，2024年Golang岗位BAT大厂面试题知识点小结

消费者分组仍需要提交offset，只是现在分区的设置只能通过调用assign修改，因为手动分配分区后不会进行分组协调，因此消费者故障不会引发分区重新平衡。“已提交”的位置是消费者已（处理的）安全保存的最后偏移量，如果进程失败或重新启动时，消费者将恢复到这个偏移量。：增大poll的间隔，可以为消费者提供更多的时间去处理返回的消息（调用poll(long)返回的消息，通常返回的消息都是一批）。分配给它的分区将重新分配给同一个分组中其他的消费者。在下面，我们的例子中，我们处理完每个分区中的消息后，提交偏移量。
复制链接

扫一扫