kafka 为什么快

存在,及合理

于 2024-10-02 18:52:38 发布

阅读量506

点赞数 9

分类专栏：中间件文章标签： kafka 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26594041/article/details/142683499

版权

中间件专栏收录该内容

19 篇文章 0 订阅

订阅专栏

批量发送接收

kafka，一次发送多条消息，微批处理。
生产者发送消息，需要2次rpc
1. 发送消息
2. broker返回ACK信号，表示已经接收消息
消费者消费消息，3次rpc
1. 消费者请求接收消息
2. broker返回消息
3. 消费者返回ACK信号，表示已经消费

客户端优化

新版客户端摒弃单线程，采用双线程模式主线程+Sender线程
主线程负责将消息置入客户端缓存(缓存会将多个消息聚合为1个批次)
Sender线程将缓存中聚合好的批次消息发送到Broker

优良的日志消息格式

0.11.0版本开始日志消息格式
引用了变长字段Varints和ZigZag编码，有效降低了附加字段占用的空间，降低了网络传输、日志存盘占用开销。

数据压缩机制

支持多种消息压缩方式（gzip、snappy、lz4）。对消息进行压缩可以极大地减少网络传输量、降低网络I/O，从而提高整体的性能。消息压缩是一种使用时间换空间的优化方式，如果对时间延有一定的要求，则不推荐对消息进行压缩。

Partition机制

对消息进行分区，提高了数据生产与消费的并行度，有效的提升了数据的吞吐量

索引快速检索

为每个日志分段文件提供了2个索引文件(偏移量索引文件.index、时间戳索引文件.timeindex)，提高了消息的查询效率

顺序写盘

操作系统可以针对线性读写做深层次的优化，比如预读(read-ahead，提前将一个比较大的磁盘块读入内存) 和后写(write-behind，将很多小的逻辑写操作合并起来组成一个大的物理写操作)技术
文件追加的方式来写入消息，只能在日志文件的尾部追加新的消息，并且也不允许修改已写入的消息
寻址磁盘疯狂转动

页缓存

Memory Mapped Files
简称：mmap，将磁盘文件映射到内存, 用户通过修改内存就能修改磁盘文件。
它的工作原理是直接利用操作系统的Page来实现磁盘文件到物理内存的直接映射。完成映射之后你对物理内存的操作会被同步到硬盘上（操作系统在适当的时候）。
通过mmap，进程像读写硬盘一样读写内存（当然是虚拟机内存）。使用这种方式可以获取很大的 I/O提升，省去了用户空间到内核空间复制的开销

问题

不可靠，写到mmap中的数据并没有被真正的写到硬盘
操作系统会在程序主动调用flush的时候才把数据真正的写到硬盘

读流程

操作系统会先查看待读取的数据所在的页 (page)是否在页缓存(pagecache)中，如果存在(命中)则直接返回数据，从而避免了对物理磁盘的 I/O 操作
如果没有命中，则操作系统会向磁盘发起读取请求并将读取的数据页存入页缓存，之后再将数据返回给进程。

写流程

操作系统也会检测数据对应的页是否在页缓存中，如果不存在，则会先在页缓存中添加相应的页最后将数据写入对应的页。
被修改过后的页也就变成了脏页，操作系统会在合适的时间把脏页中的数据写入磁盘，以保持数据的一致性。

kafka应用

Kafka提供了一个参数 producer.type 来控制是不是主动flush
如果Kafka写入到mmap之后就立即flush然后再返回Producer叫同步(sync)
写入mmap之后立即返回Producer不调用flush叫异步(async)

大量使用了页缓存，这是 Kafka 实现高吞吐的重要因素之一。
减少对磁盘 I/O 的操作(具体来说，就是把磁盘中的数据缓存到内存中，把对磁盘的访问变为对内存的访问)
维护页缓存和文件之间的一致性交由操作系统来负责，比进程内维护更加安全有效

零拷贝

传统

先读取、再发送，实际经过1~4四次copy

实际IO读写，需要进行IO中断，需要CPU响应中断(内核态到用户态转换)，尽管引入DMA(DirectMemory Access，直接存储器访问)来接管CPU的中断请求，但四次copy是存在“不必要的拷贝”的

实际上并不需要第二个和第三个数据副本。数据可以直接从读缓冲区传输到套接字缓冲区。

零拷贝

两个过程

数据落盘通常都是非实时的，Kafka的数据并不是实时的写入硬盘，它充分利用了操作系统分页存储来利用内存提高I/O效率

网络数据持久化到磁盘 (Producer 到 Broker)
磁盘文件通过网络发送（Broker 到 Consumer）

磁盘数据通过DMA(Direct Memory Access，直接存储器访问)拷贝到内核态 Buffer
直接通过 DMA 拷贝到 NIC Buffer(socket buffer)，无需 CPU 拷贝
除了减少数据拷贝外，整个读文件 ==> 网络发送由一个 sendfile 调用完成，整个过程只有两次上下文切换，因此大大提高了性能

4. Java NIO

对sendfile的支持就是FileChannel.transferTo()/transferFrom()

存在,及合理

关注

9
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

存在,及合理 CSDN认证博客专家 CSDN认证企业博客

码龄10年

306: 原创

7622: 周排名

6300: 总排名

19万+: 访问

: 等级

6082: 积分

1808: 粉丝

2572: 获赞

11: 评论

1976: 收藏

私信

关注

分类专栏

行业-业务
算法数据结构 3篇
分布式解决方案 12篇
考试 2篇
安全
AI 3篇
python 2篇
go 1篇
java基础 104篇
java框架 43篇
数据库 63篇
微服务治理 6篇
network 13篇
运维 18篇
中间件 19篇
面试 1篇
设计 4篇
工具篇 10篇

最新评论

kafka介绍
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619342471。
kafka 官网原生配置文件（参考）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619340768。
nginx-安装-卸载-启动-自启
普通网友: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
网络-目录
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
java-基础-正确处理异常
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。