【经典面试题】Kafka为什么这么快？

全真王重阳

于 2024-08-31 20:03:55 发布

阅读量232

点赞数 2

分类专栏： Java架构文章标签： kafka 分布式 java 架构中间件消息中间件

本文链接：https://blog.csdn.net/qq_38196449/article/details/141626979

版权

31 篇文章 1 订阅

订阅专栏

Kafka是一个成熟的消息队列，一直以性能高著称，它之所以能够实现高吞吐量和低延迟，主要是由于以下几个方面的优化。我试着从发送端、存储端以及消费端分别介绍一下。

零拷贝技术：Kafka使用零拷贝技术来避免了数据的拷贝操作，降低了内存和CPU的使用率，提高了系统的性能。
顺序写入磁盘：Kafka将数据顺序写入磁盘，避免了随机写入带来的性能损耗。
页缓存：Kafka将其数据存储在磁盘上，但在访问数据时，它会先将数据加载到内存中的页缓存中，从而提高了数据访问速度。
稀疏索引：Kafka存储消息是通过分段的日志文件，每个分段都有自己的索引文件。这些索引文件中的条目不是对分段中的每条消息都建立索引，而是每隔一定数量的消息建立一个索引点，这就构成了稀疏索引。稀疏索引减少了索引大小，使得加载到内存中的索引更小，提高了查找特定消息的效率。
分区和副本：Kafka采用分区和副本的机制，可以将数据分散到多个节点上进行处理，从而实现了分布式的高可用性和负载均衡。

生产消息 (Production Messages)	存储消息 (Storage Messages)	消费消息 (Consumption Messages)
批量发送 (Bulk Send)	磁盘顺序写入 (Disk Sequential Write)	消费者群组 (Consumer Group)
异步发送 (Asynchronous Send)	页缓存 (Page Cache)	批量拉取 (Bulk Pull)
消息压缩 (Message Compression)	稀疏索引 (Sparse Index)	并行消费 (Parallel Consumption)
并行发送 (Parallel Send)	零拷贝 (Zero Copy)
	分区和副本 (Partition and Replica)