Kafka原理

最新推荐文章于 2024-07-02 10:03:51 发布

zkyCoder

最新推荐文章于 2024-07-02 10:03:51 发布

阅读量540

点赞数

分类专栏： Kafka 文章标签： kafka 分布式 java

本文链接：https://blog.csdn.net/weixin_41812379/article/details/125422605

版权

本文深入探讨Kafka的存储原理，包括分区架构、存储层面的segment、索引和日志分块，以及实现高性能的批量写入、检索策略、零拷贝技术。此外，还介绍了Kafka的高可靠特性，如ack机制、ISR、故障处理和幂等性，以及offset维护策略。

摘要由CSDN通过智能技术生成

Kafka原理

本次我们从Kafka的存储原理，以及Kafka高性能、高可靠特性来讲解Kafka的原理。

Kafka的存储原理

Kafka中的消息根据Topic进行分类，每个Topic下有多个Partition，用于提高吞吐量和并行度。
在这里插入图片描述
在物理概念中，**每个Partition有一个log，log记录的就是生产者给予的消息，每次生产者给予的消息会追加到log文件末尾，并且附上该数据的offset。**消费者在消费的时候都会记录所消费的offset，如果消费者出错后重启，也可以根据offset回到当时的数据。
在这里插入图片描述
为了避免分区中的log过大导致定位时间过长，Kafka将log做成多个segment，每个segment分为索引为索引文件（.index）和日志文件（.log）。index和log文件以当前segment第一条消息的offset命名。在搜索的时候通过index得到log文件中对应offset的偏移位置。

Kafka的高性能

kafka的高性能表现在以下几个层面：

1.分区架构

由于对topic做了分区，理论上可以无限横向拓展，从而提高kafka性能，分区作为并行的单元，一个消费者组里的一个消费者消费一个分区的数据。

2.存储层面

对日志进行磁盘顺序读写，普通的机械磁盘，顺序访问速率也接近了内存的随机访问速率。

在这里插入图片描述
Producer传递到Broker的消息集中的每条消息都会分配一个顺序值（只是相对于本批次的序号）用来标记Producer所生产消息的顺序，每一批消息的顺序值都从0开始。服务端会将每条消息的顺序值转换成绝对偏移量(Broker从Partition维度来标记消息的顺序，用于控制Consumer消费消息的顺序)。Kafka通过nextOffset(下一个偏移量)来记录存储在日志中最近一条消息的偏移量。消息发送到Broker后，每条消息都被顺序写该Partition所对应的文件中，因此效率非常高，这是Kafka高吞吐率的一个很重要的保证。

3.批量写入

Producer生产消息会涉及大量的消息网络传输，如果Producer每生产一个消息就发送到Broker会造成大量的网络消耗，严重影响到Kafka的性能。为了解决这个问题，Kafka使用了批量发送的方式。
在这里插入图片描述
Kafka通过将Topic划分成多个Partition，如上图所示，消息经过路由策略，被分发到不同的Partition对应的本地队列（序列化消息并压缩消息后，追加到本地的记录收集器(RecordAccumulator），Sender不断轮询记录收集器，当满足一定条件时，将队列中的数据发送到Partition Leader节点。