前言
本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系
正文
事务是什么?
在数据库领域,事务提供的安全性保障是经典的 ACID,
即原子性(Atomicity)、一致性 (Consistency)、隔离性 (Isolation) 和持久性 (Durability)。
隔离性
通常来说,隔离性表明并发执行的事务彼此相互隔离,互不影响。
经典的数据库教科书把隔离性称为可串行化 (serializability),即每个事务都假装它是整个数据库中唯一的事务。
所谓的 read committed,指的是当读取数据库时,你只能看到已提交的数据,即无脏读。
同时,当写入数据库时,你也只能覆盖掉已提交的数据,即无脏写。
Kafka 与 read committed
Kafka 自 0.11 版本开始也提供了对事务的支持,目前主要是在 read committed 隔离级别上做事情。
它能保证多条消息原子性地写入到目标分区,同时也能保证 Consumer 只能看到事务成功提交的消息。
事务型 Producer
事务型 Producer事务型 Producer 能够保证将消息原子性地写入到多个分区中。
这批消息要么全部写入成功,要么全部失败。
另外,事务型 Producer 也*不惧进程的重启。
Producer 重启回来后,Kafka 依然保证它们发送消息的精确一次处理。
设置
设置事务型 Producer 的方法也很简单,满足两个要求即可:
-
和幂等性 Producer 一样,开启 enable.idempotence = true。
-
设置 Producer 端参数 transactional.id。最好为其设置一个有意义的名字。
此外,你还需要在 Producer 代码中做一些调整,如这段代码所示:
producer.initTransactions();
try {
producer.beginTransaction();
producer.send(record1);
producer.send(record2);
producer.commitTransaction();
} catch (KafkaException e) {
producer.abortTransaction();
}
和普通 Producer 代码相比,事务型 Producer 的显著特点是调用了一些事务 API,如 initTransaction、beginTransaction、commitTransaction 和 abortTransaction,它们分别对应事务的初始化、事务开始、事务提交以及事务终止。
这段代码能够保证 Record1 和 Record2 被当作一个事务统一提交到 Kafka,要么它们全部提交成功,要么全部写入失败。
实际上即使写入失败,Kafka 也会把它们写入到底层的日志中,也就是说 Consumer 还是会看到这些消息。
Consumer 端
因此在 Consumer 端,读取事务型 Producer 发送的消息也是需要一些变更的。
修改起来也很简单,设置 isolation.level 参数的值即可。
当前这个参数有两个取值:
- read_uncommitted:这是默认值,表明 Consumer 能够读取到 Kafka 写入的任何消息,不论事务型 Producer 提交事务还是终止事务,其写入的消息都可以读取。
很显然,如果你用了事务型 Producer,那么对应的 Consumer 就不要使用这个值。 - read_committed:表明 Consumer 只会读取事务型 Producer 成功提交事务写入的消息。
当然了,它也能看到非事务型 Producer 写入的所有消息。