Kafka技术知识总结之七——Kafka磁盘存储

最新推荐文章于 2024-07-09 10:07:17 发布

琦小虾

最新推荐文章于 2024-07-09 10:07:17 发布

阅读量1.4k

点赞数

分类专栏： Java Kafka 文章标签： java kafka

本文链接：https://blog.csdn.net/ajianyingxiaoqinghan/article/details/107192440

版权

Java 同时被 2 个专栏收录

84 篇文章

订阅专栏

Kafka

9 篇文章

订阅专栏

本文深入解析Kafka如何利用页缓存和零拷贝技术实现每秒上百万的高并发写入。通过顺序写磁盘和优化数据传输流程，大幅提升了Kafka的写入效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

接上篇《Kafka技术知识总结之六——Kafka负载均衡策略》

七. 磁盘存储

参考地址：
《Kafka如何实现每秒上百万的高并发写入》
《深入理解 Kafka：核心设计与实践原理》5.5 章节

Kafka 在大数据领域有极为广泛的运用，配置良好的 Kafka 集群甚至可以做到每秒几十万、上百万的超高并发写入。通常磁盘写入是一种非常缓慢的操作，Kafka 的高并发写入主要是依靠页缓存和零拷贝两种技术实现的。

7.1 页缓存

操作系统本身有一层缓存，叫做页缓存 (Page Cache)，又被称为 OS Cache，即为操作系统自己管理的缓存。页缓存可以将磁盘中的数据缓存到内存中，将对磁盘的访问转换为对内存的访问。
Kafka 大量使用了页缓存，Kafka 在准备将消息写入磁盘中时，可以直接写入页缓存中，接下来操作系统自己决定什么时候将页缓存中的数据真正刷入磁盘中。这样的设计使得 Kafka 将消息写入磁盘的效率大幅提升。
Kafka页缓存

此外 Kafka 写入数据时采用了文件追加的方式写入消息，在日志文件的尾部追加新消息，属于典型的顺序写盘的操作，它依赖于硬盘来存储和缓存消息。通常来说，内存的读写效率要高于磁盘，但磁盘的顺序读写效率也是非常高的，顺序写磁盘的速度甚至高于随机写内存的速率。所以 Kafka 使用了顺序写磁盘的方式做持久化工作。

7.2 零拷贝 (Zero-Copy)

页缓存技术主要用于消息写入 Kafka Broker 端的磁盘，零拷贝技术用于 Kafka Broker 将消息推送给下游消费者。

7.2.1 传统 IO

Kafka Broker 将消息发送给下游的消费者，如果在什么优化都不做的情况下，应该是如下流程：

Kafka Broker 从磁盘中读取消息数据到系统内存；（内核模式）
系统内存拷贝数据到 Kafka Server 服务的缓存中（内核模式 -> 应用模式）；
Kafka Server 服务将缓存中的消息数据复制到操作系统的 Socket 缓存中（应用模式 -> 内核模式）
Socket 缓存将消息数据通过网卡发送出去（内核模式）

上面未优化的过程中，步骤 2 与步骤 3 是没有必要的，这两个步骤中间发生了两次没有必要的上下文切换，而上下文切换是十分消耗性能的。上下文切换状态如下图所示：
传统IO上下文切换

注：传统的拷贝方法为：

当设备接收到数据，向 CPU 报告中断；
CPU 处理中断；
CPU 将数据从设备寄存器数据读到内存；

传统拷贝方法的步骤 2, 3 是先等待 CPU 中断处理完毕后，再将数据读入内存。而每次的 IO 中断都会带来 CPU 的上下文切换。
在现代操作系统中引入了直接内存访问 (DMA, Direct Memory Access) 技术，它允许不同速度的硬件装置沟通，不需要依赖 CPU 的大量中断负载，数据的读写请求由 DMA 控制器接管，减少了 CPU 的负担。