Kafka 写入原理读原理生产发送ack Isr 高水位

vmaps

已于 2024-03-05 08:39:13 修改

阅读量378

点赞数 4

分类专栏：消息队列文章标签： kafka 分布式

于 2024-03-04 10:05:21 首次发布

本文链接：https://blog.csdn.net/vmaps/article/details/136444788

版权

5 篇文章 0 订阅

订阅专栏

Kafka是由Apache软件基金会开发的一个开源流处理平台，用Scala和Java编写，是一个高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。以下是关于Kafka的一些基本原理和概念的解释：

Kafka的写入操作主要是将数据发送到指定的topic的partition中。
当生产者发送消息时，它会根据消息的key和partition的数量来决定将消息发送到哪个partition。如果没有指定key，那么Kafka会采用轮询的方式将数据发送到各个partition。
Kafka的写入操作是异步的，生产者将消息发送到broker后，broker会立即返回一个ack（确认）消息给生产者，表示消息已经被接收。但是此时消息可能还没有被写入到磁盘中，只是被暂存在内存中。
Kafka使用了一种叫做“日志段”（Log Segment）的数据结构来存储消息。每个partition都由多个日志段组成，每个日志段都包含了一定数量的消息。当新的消息到来时，Kafka会将其追加到最新的日志段的末尾。
为了保证数据的可靠性，Kafka还会将消息写入到磁盘中。这个过程是异步的，由后台线程负责完成。当消息被写入到磁盘后，对应的日志段就会被标记为“可刷盘”（flushable），表示该日志段的数据可以被持久化到磁盘上。

当生产者发送消息到Kafka broker时，broker会返回一个ack消息给生产者，表示消息已经被接收。
ack消息中包含了消息的offset和partition信息，生产者可以根据这些信息来确定消息的位置和状态。
Kafka支持三种ack模式：acks=0（生产者不等待broker的ack）、acks=1（生产者等待broker的leader写入消息后的ack）、acks=all（生产者等待broker的leader和所有follower都写入消息后的ack）。不同的ack模式会影响消息的可靠性和延迟性。

ISR是Kafka中用于表示与leader保持同步的follower列表的集合。只有被写入ISR列表里面的follower才会参与leader的选举和消息的同步。
当一个follower长时间未与leader同步或者数据落后太多时，它会被移出ISR列表。此时该follower不再参与leader的选举和消息的同步。
ISR列表的维护对于Kafka的高可用性和数据可靠性非常重要。如果ISR列表中的follower数量太少或者没有，那么Kafka可能会降低写入性能或者面临数据丢失的风险。

高水位是Kafka中用于表示消费者可以安全读取到的最新消息的offset的标记。
在每个partition中，Kafka都会维护一个高水位线。只有当消息的offset大于等于高水位线时，该消息才会被消费者读取到。
高水位线的位置会随着消息的写入和消费者的读取而不断变化。当新的消息被写入到partition中时，高水位线会向前移动；当消费者读取消息时，高水位线也会相应地调整。
通过控制高水位线的位置，Kafka可以实现消息的持久化存储和消费者的精确控制读取位置等功能。

以上信息仅供参考，如需更专业的解释，建议咨询相关技术人员或查阅相关书籍资料。

关注