Kafka为什么高吞吐量

知知之之

已于 2024-06-06 15:20:27 修改

阅读量6.7k

点赞数 7

分类专栏： Kafka 文章标签： java

于 2021-07-19 15:42:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35973945/article/details/118897272

版权

Kafka 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

顺序读写

kafka的消息是不断追加到文件中的，这个特性使kafka可以充分利用磁盘的顺序读写性能，顺序读写不需要硬盘磁头的寻道时间，只需很少的扇区旋转时间，所以速度远快于随机读写。

零拷贝

Kafka高吞吐量的原因其中有个重要技术就是Zero-Copy(零拷贝)系统调用机制

传统的文件拷贝

由于应用程序无法直接读取内核空间的数据，如果要读取这些数据，那么必须把数据从读取缓冲区拷贝到应用程序缓冲区
用户态把数据拷贝到核心态Socket Buffer，然后发送到网卡

DMA(Direct Memory Access)

Kafka引入DMA(Direct Memory Access)直接内存访问，一种可以让某些硬件子系统可以直接访问系统主内存，而不用依赖CPU调度，传统的内存访问都需要经过CPU的调度来完成的。

传统数据传输 vs 零拷贝

传统数据传输

在不使用零拷贝的情况下，数据传输通常经过以下几个步骤：

数据从硬盘读取到内核空间缓冲区（第一次拷贝）。
数据从内核空间拷贝到用户空间（第二次拷贝）。
数据从用户空间拷贝回内核网络缓冲区（第三次拷贝）。
数据从内核网络缓冲区发送到网络接口。

零拷贝数据传输

使用零拷贝技术如 sendfile，数据传输过程简化为：

数据从硬盘读取到内核空间文件缓冲区（第一次拷贝）。
数据从内核空间文件缓冲区直接传输到内核网络缓冲区（DMA传输，仅一次拷贝）。
数据从内核网络缓冲区发送到网络接口。

分区

kafka中的topic中的内容可以被分为多个partition，每个partition又分为多段segment，所以每次操作都是针对一小部分做操作，很轻便，并且增加并行操作的能力。

批量发送

kafka允许进行批量发送消息，producer发送消息的时候，可以将消息缓存在本地，等到固定条件再发送到kafka

消息条数满足固定条数
一段时间发送一次数据压缩

kafka还支持对消息集合进行压缩，producer可以通过GZIP或Snappy格式对消息集合进行压缩，压缩的好处就是减少传输的数据量，减轻对网络传输的压力。

Kafka优化JVM GC

内存缓冲机制把多条消息组成一个Batch，一次网络请求就是一个Batch或者多个Batch，避免了一条消息一次网络请求，从而提升了吞吐量，但是由此带来一个问题，Batch数据发送完过后，Batch所占用JVM内存如何处理？

JVM GC在回收内存垃圾的时候，会有一个“stop the world”的过程，也就是垃圾回收线程运行的时候，会导致其他工作线程短暂的停顿，如何尽可能避免JVM频繁的GC？

为了避免内存缓冲机制造成频繁的GC，Kafka客户端内部实现了缓冲池机制。

简单来讲，就是每个Batch底层都对应一块内存空间，这个内存空间就是专门用来存放写入进去的消息，当每一个Batch被发送到了kafka服务器买这Batch的数据不再需要了，就意味着这个Batch的内存空间不再使用了，此时这个Batch底层的内存空间不要交给JVM去垃圾回收，而是把这块内存空间放入一个缓冲池里，这个缓冲池里放了很多内存空间，下一个Batch可以直接从这个缓冲池获取一块内存空间，以此类推，循环往复。

关注

7
点赞
踩
33

收藏

觉得还不错? 一键收藏
1
评论
Kafka为什么高吞吐量

1、顺序读写kafka的消息是不断追加到文件中的，这个特性使kafka可以充分利用磁盘的顺序读写性能，顺序读写不需要硬盘磁头的寻道时间，只需很少的扇区旋转时间，所以速度远快于随机读写。2、零拷贝Kafka高吞吐量的原因其中有个重要技术就是Zero-Copy(零拷贝)系统调用机制传统的文件拷贝由于应用程序无法直接读取内核空间的数据，如果要读取这些数据，那么必须把数据从读取缓冲区拷贝到应用程序缓冲区用户态把数据拷贝到核心态Socket Buffer，然后发送到网卡DMA(Di.
复制链接

扫一扫

专栏目录

知知之之 CSDN认证博客专家 CSDN认证企业博客

码龄8年

215: 原创

2万+: 周排名

1万+: 总排名

27万+: 访问

: 等级

2983: 积分

287: 粉丝

300: 获赞

36: 评论

676: 收藏

私信

关注

分类专栏

设计模式 7篇
Java 30篇
ClickHouse 4篇
JVM 13篇
MySQL 32篇
Redis 19篇
Kafka 8篇
RocketMQ 12篇
MQTT 3篇
IOT 3篇
SpringBoot 18篇
SpringCloud 8篇
Mybatis 2篇
计算机网络 18篇
操作系统 5篇
算法 14篇
K8S
docker 2篇
DDD 2篇
系统设计 7篇
其他 5篇

最新评论

RocketMQ同一个消费者内消费者订阅不同Topic问题分析
syhleo: 其中一个topic只有两个队列被消费，其他两个队列积压。有可能是，你两个consumer中，只有一个实例有订阅这个topic，另一个没有订阅，造成了订阅不一致问题。
Spring如何解决循环依赖
CSDN-Ada助手: 如何在Spring框架中实现动态代理？
Kafka为什么高吞吐量
CSDN-Ada助手: Kafka如何升级版本？
RocketMQ同一个消费者内消费者订阅不同Topic问题分析
ldj2020: 你总结的不前后矛盾吗？说支持订阅多个topic，后面又说topic都必须一致，topic一致了，还有说明多个topic之分
RocketMQ同一个消费者内消费者订阅不同Topic问题分析
yanlun0323: 再次看了下总结，博主出现的问题是同一个消费组，A服务订阅Topic1、Topic2，但是B服务只订阅了Topic1，这种确实不符合要求，参考https://rocketmq.apache.org/zh/docs/domainModel/09subscription

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。