Kafka吞吐量为啥那么大

最新推荐文章于 2024-07-30 09:27:19 发布

F_Hello_World

最新推荐文章于 2024-07-30 09:27:19 发布

阅读量551

点赞数

分类专栏： Kafka

本文链接：https://blog.csdn.net/F_Hello_World/article/details/107477775

版权

本文探讨了Kafka如何通过顺序读写、利用页缓存和实现零拷贝技术，克服磁盘速度限制，达到高吞吐和低延迟的特性。相比于Rabbitmq，Kafka更注重日志存储的效率，通过特定的数据结构和策略优化磁盘操作，使得其在大数据场景下表现出色。

摘要由CSDN通过智能技术生成

序言：

Kafka是一个依赖磁盘来存储和缓存消息，一般对于磁盘的读写我们认为它的速度很慢的(实际上对于磁盘的读写速度也是根据我们的使用方式来决定它的快慢，例如如果我们进行顺序读写那么它的速度和随机内存访问相差无几，但若我们进行随机读写时，该效率与内存相差千倍)，关于服务器中各存储介质的读写速度可参考以下图。

从上述我们可以看出磁盘处于一个底层的位置，而缓存(内存)处于金字塔位置。那么Kafka为何不向Rabbitmq那样采用内存作为默认的存储介质，使用磁盘作为备用(使用磁盘作为消息的持久化,避免内存丢失)来以此实现高吞吐和低延迟的特性。这与Kafka的设计有一定关系，Kafka在创立之初就是作为日志系统采集的中间件而使用，对于日志文件每日可产生海量的数据，而且这些数据可能被进行落地存储一定日期，对于这些数据我们如果的存储在内存中，很显然第一成本很大，第二不一定有那么大的内存硬件供我们使用(kafka也会使用到内存，只不过不会非常依赖(当然内存大在数据体量大的时候也会有好处，后文叙述)，这也是我们在大数据场景中可以看到kafka的原因-内存比磁盘贵)。而Rabbitmq它的设计模式是为了更快的将数据push给消费者，并且当消费者进行ack时，该条消息就会标记删除，后续会有其它线程进行del。第二也是最重要的一点Kafka通过设计了存储的数据结构，读写的使用方式来规避了磁盘的缺点，放大磁盘的优点，最终达到高吞吐和低延迟的特性，对比Rabbitmq来说，吞吐量比Rabbitmq高而延迟相对于Rabbitmq的ns Kafka的ms也是可以接受。