关于kafka事务的一些理解

最新推荐文章于 2024-08-08 10:13:33 发布

2NaCl

最新推荐文章于 2024-08-08 10:13:33 发布

阅读量647

点赞数 3

分类专栏：面经文章标签： java 中间件 kafka

本文链接：https://blog.csdn.net/qq_41936805/article/details/107438004

版权

47 篇文章 3 订阅

订阅专栏

kafka的事务机制，主要是为了保证：

实际上，除了一些利用其它第三方中间件和GUID的情况，我们也可以使用kafka的事务来实现exactly once。主要方法是让下游系统通过具备幂等性，借用at least once的基本语意来实现，消费且仅一次，但是也是有限制条件的，如下：

目的在于

在这里说一下kafka是如何做到的幂等性发送。

之前说了，为了实现kafka的exactly once，就要上下游系统实现幂等性，但是对于kafka Stream来说kafka Producer本身就是下游，所以就来说一下kafka的系统设计方法。

为了实现 Producer 的幂等语义，Kafka 引入了Producer ID（即PID）和Sequence Number。每个新的 Producer 在初始化的时候会被分配一个唯一的 Producer ID，该 Producer ID 对用户完全透明而不会暴露给用户。

而对于每一个Producer ID发送的<Topic , Partition> 都对应一个从0开始计数的Sequence number。

同样的，broker端也会维护一个< PID , Topic , Partition>序号，每次commit的时候，这个对应的序号就会+1，对于接收的每条消息，如果其维护的序号比brokerID大1，就可以接收，不然就丢弃。

但是这个只能针对单个producer对于同一个<Topic,Partition>的Exactly once情况，这是无法保证写操作的原子性的，也就是无法保证多个写操作的原子性和读写操作的原子性，也就是要么全部成功，要么全部失败。

所以就得通过事务来实现。

首先需要客户端提供一个Transaction ID，Transaction ID会和Producer Id一一对应，区别就是Producer Id是由自己内部生成的。

而Transaction Id的主要作用如下：

但是Consumer那边就不一样了，会有一些问题：

在疏漏总结也说过关于at least once和at most once的触发条件了，现在说一下通过事务是如何进行实现的。

首先我们知道，kafka的Stream中，producer负责处理完数据扔进topic处理，consumer负责拉取数据消费。为了能保证原子性，我们就必须让producer commit和consumer commit在一个事务内去实现，不然就会造成一些数据问题。

关注

专栏目录