Kafka核心技术与实战

最新推荐文章于 2023-06-28 23:04:48 发布

chaisy971124568

最新推荐文章于 2023-06-28 23:04:48 发布

阅读量327

点赞数

分类专栏： Kafka核心技术与实战 Kafka 文章标签： kafka

本文链接：https://blog.csdn.net/chaisy971124568/article/details/114034536

版权

Kafka核心技术与实战同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

Kafka

1 篇文章 0 订阅

订阅专栏

简介

Apache Kafka 是一款开源的消息引擎系统，也是一个分布式流处理平台。

削峰填谷

术语

消息：Record，Kafka 是消息引擎嘛，这里的消息就是指 Kafka 处理的主要对象。
主题：Topic，主题是承载消息的逻辑容器，在实际使用中多用来区分具体的业务。
分区：Partition，一个有序不变的消息序列，每个主题下可以有多个分区。
消息位移：Offset，表示分区中每条消息的位置信息，是一个单调递增且不变的值。
副本：Replica，Kafka 中同一条消息能够被拷贝到多个地方以提供数据冗余，这些地方就是所谓的副本。副本还分为领导者副本和追随者副本，各自有不同的角色划分。副本是在分区层级下的，即每个分区可配置多个副本实现高可用。
生产者：Producer，向主题发布新消息的应用程序。
消费者：Consumer，从主题订阅新消息的应用程序。
消费者位移：Consumer Offset，表征消费者消费进度，每个消费者都有自己的消费者位移。
消费者组：Consumer Group，多个消费者实例共同组成的一个组，同时消费多个分区以实现高吞吐。
重平衡：Rebalance，消费者组内某个消费者实例挂掉后，其他消费者实例自动重新分配订阅主题分区的过程。Rebalance是Kafka 消费者端实现高可用的重要手段。

实战

kafka保证Partition级是有序的，那么如果想实现Topic级有序应该怎么操作：

Kafka Topic只设置一个分区。
Producer将指定消息发送到同一个分区，例如房间内事件需要保证是有序的，那么可以根据房间ID进行分区选择，这样就能保证同一个房间的消息是有序的。

Kafka如何保证不重复消费：

在消息体中添加唯一ID，在消费者消费到消息后，先进行唯一ID的校验。

Producer和Consumer连接Kafka Broker后，会发送一个获取MetaData信息的请求，获取所有的Service Address，故无需指定全部的Server Address，通常指定 3～4 台就足以了。因为 Producer 一旦连接到集群中的任一台 Broker，就能拿到整个集群的 Broker 信息。这也是Kafka设计一个巧妙的地方，这样在Kafka集群扩容时，就无需让所有的生产者和消费者修改配置了。

Kafka消息交付可靠性保障以及精确处理一次语义的实现

所谓的消息交付可靠性保障，是指 Kafka 对 Producer 和 Consumer 要处理的消息提供什么样的承诺。常见的承诺有以下三种：

最多一次（at most once）：消息可能会丢失，但绝不会被重复发送。
至少一次（at least once）：消息不会丢失，但有可能被重复发送。
精确一次（exactly once）：消息不会丢失，也不会被重复发送。

Kafka 默认提供的交付可靠性保障是第二种，即至少一次。

目前，Kafka 默认提供的交付可靠性保障是第二种，即至少一次。倘若消息成功“提交”，但 Broker 的应答没有成功发送回 Producer 端（比如网络出现瞬时抖动），那么 Producer 就无法确定消息是否真的提交成功了。因此，它只能选择重试，也就是再次发送相同的消息。这就是 Kafka 默认提供至少一次可靠性保障的原因，不过这会导致消息重复发送。

Kafka 也可以提供最多一次交付保障，只需要让 Producer 禁止重试即可。这样一来，消息要么写入成功，要么写入失败，但绝不会重复发送。我们通常不会希望出现消息丢失的情况，但一些场景里偶发的消息丢失其实是被允许的，相反，消息重复是绝对要避免的。此时，使用最多一次交付保障就是最恰当的。

在 Kafka 中，Producer 默认不是幂等性的，但我们可以创建幂等性 Producer。它其实是 0.11.0.0 版本引入的新功能。在此之前，Kafka 向分区发送数据时，可能会出现同一条消息被发送了多次，导致消息重复的情况。在 0.11 之后，指定 Producer 幂等性的方法很简单，仅需要设置一个参数即可，即 props.put(“enable.idempotence”, ture)，或 props.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG， true)。

Kafka如何保证消息幂等

首先，只能保证单分区上的幂等性，即一个幂等性 Producer 能够保证某个主题的一个分区上不出现重复消息，它无法实现多个分区的幂等性。
其次，只能实现单会话上的幂等性，不能实现跨会话的幂等性。这里的会话，你可以理解为 Producer 进程的一次运行。当你重启了 Producer 进程之后，这种幂等性保证就丧失了。

Kafka事务

设置事务型 Producer 的方法满足两个要求即可：

和幂等性 Producer 一样，开启 enable.idempotence = true。
设置 Producer 端参数 transactional. id。最好为其设置一个有意义的名字。

此外，你还需要在 Producer 代码中做一些调整，如这段代码所示：


producer.initTransactions();
try {
            producer.beginTransaction();
            producer.send(record1);
            producer.send(record2);
            producer.commitTransaction();
} catch (KafkaException e) {
            producer.abortTransaction();
}

Consumer 端，读取事务型 Producer 发送的消息也是需要一些变更的：

设置 isolation.level 参数的值即可。

当前这个参数有两个取值：read_uncommitted：这是默认值，表明 Consumer 能够读取到 Kafka 写入的任何消息，不论事务型 Producer 提交事务还是终止事务，其写入的消息都可以读取。很显然，如果你用了事务型 Producer，那么对应的 Consumer 就不要使用这个值。read_committed：表明 Consumer 只会读取事务型 Producer 成功提交事务写入的消息。当然了，它也能看到非事务型 Producer 写入的所有消息。

Consumer Group 是 Kafka 提供的可扩展且具有容错性的消费者机制。

每个分区只能由同一个消费者组内的一个 Consumer 实例来消费。

Consumer Group 三个特性：

Consumer Group 下可以有一个或多个 Consumer 实例。
Group ID 是一个字符串，在一个 Kafka 集群中，它标识唯一的一个 Consumer Group。
Consumer Group 下所有实例订阅的主题的单个分区，只能分配给组内的某个 Consumer 实例消费。这个分区当然也可以被其他的 Group 消费。

理想情况下，Consumer 实例的数量应该等于该 Group 订阅主题的分区总数。

Rebalance 本质上是一种协议，规定了一个 Consumer Group 下的所有 Consumer 如何达成一致，来分配订阅 Topic 的每个分区。比如某个 Group 下有 20 个 Consumer 实例，它订阅了一个具有 100 个分区的 Topic。正常情况下，Kafka 平均会为每个 Consumer 分配 5 个分区。这个分配的过程就叫 Rebalance。

那么 Consumer Group 何时进行 Rebalance 呢？Rebalance 的触发条件有 3 个：

组成员数发生变更。比如有新的 Consumer 实例加入组或者离开组，抑或是有 Consumer 实例崩溃被“踢出”组。
订阅主题数发生变更。Consumer Group 可以使用正则表达式的方式订阅主题，比如 consumer.subscribe(Pattern.compile("t.*c")) 就表明该 Group 订阅所有以字母 t 开头、字母 c 结尾的主题。在 Consumer Group 的运行过程中，你新创建了一个满足这样条件的主题，那么该 Group 就会发生 Rebalance。
订阅主题的分区数发生变更。Kafka 当前只能允许增加一个主题的分区数。当分区数增加时，就会触发订阅该主题的所有 Group 开启 Rebalance。

Consumer Group Rebalance缺点：

首先，Rebalance 过程对 Consumer Group 消费过程有极大的影响。如果你了解 JVM 的垃圾回收机制，你一定听过万物静止的收集方式，即著名的 stop the world，简称 STW。在 STW 期间，所有应用线程都会停止工作，表现为整个应用程序僵在那边一动不动。Rebalance 过程也和这个类似，在 Rebalance 过程中，所有 Consumer 实例都会停止消费，等待 Rebalance 完成。这是 Rebalance 为人诟病的一个方面。
其次，目前 Rebalance 的设计是所有 Consumer 实例共同参与，全部重新分配所有分区。其实更高效的做法是尽量减少分配方案的变动。例如实例 A 之前负责消费分区 1、2、3，那么 Rebalance 之后，如果可能的话，最好还是让实例 A 继续消费分区 1、2、3，而不是被重新分配其他的分区。这样的话，实例 A 连接这些分区所在 Broker 的 TCP 连接就可以继续用，不用重新创建连接其他 Broker 的 Socket 资源。
最后，Rebalance 实在是太慢了。曾经，有个国外用户的 Group 内有几百个 Consumer 实例，成功 Rebalance 一次要几个小时！这完全是不能忍受的。最悲剧的是，目前社区对此无能为力，至少现在还没有特别好的解决方案。所谓“本事大不如不摊上”，也许最好的解决方案就是避免 Rebalance 的发生吧。

chaisy971124568

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Kafka核心技术与实战

简介Apache Kafka 是一款开源的消息引擎系统。削峰填谷术语Broker: kafka集群中包含一个或者多个服务实例，这种服务实例被称为Broker Topic: 每条发布到kafka集群的消息都有一个类别，这个类别就叫做Topic Partition: Partition是一个物理上的概念，每个Topic包含一个或者多个Partition Producer: 负责发布消息到kafka的Broker中。 Consumer: 消息消费者,向kafka的broker中读取消息的客
复制链接

扫一扫