Kafka为什么快-顺序访问和零拷贝

最新推荐文章于 2024-07-30 09:27:19 发布

Haptain

最新推荐文章于 2024-07-30 09:27:19 发布

阅读量355

点赞数

分类专栏： Kafka

本文链接：https://blog.csdn.net/mengfeichuan2013/article/details/117355712

版权

Kafka 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

1、页缓存 + 顺序写

为了优化读写性能，Kafka利用了操作系统本身的Page Cache，就是利用操作系统自身的内存而不是JVM空间内存。这样做的好处有：

1避免Object消耗：如果是使用 Java 堆，Java对象的内存消耗比较大，通常是所存储数据的两倍甚至更多。

2避免GC问题：随着JVM中数据不断增多，垃圾回收将会变得复杂与缓慢，使用系统缓存就不会存在GC问题

Kafka在写数据的时候，一方面基于了os层面的page cache来写数据，所以性能很高，本质就是在写内存罢了。

另外一个，他是采用磁盘顺序写的方式，所以即使数据刷入磁盘的时候，性能也是极高的，也跟写内存是差不多的。

基于上面两点，kafka就实现了写入数据的超高性能。

2、顺序读

因为kafka的数据都是顺序存储在硬盘上的，所以在读取的时候，大大减少了磁盘的循道时间

顺序读写&随机读写做下差异比较的话，普通磁盘的顺序访问速度跟SSD顺序访问速度差不多一致，远超随机访问的速度（差不多 *2 +），甚至能达到内存随机访问的速度（这里举的例子是指SAS磁盘），随机读写相对于顺序读写主要时间花费在循道上，并且顺序读写会预读信息，所以速度自然就差异很大了。

3、零拷贝

linux操作系统 “零拷贝” 机制使用了sendfile方法，允许操作系统将数据从Page Cache 直接发送到网络，只需要最后一步的copy操作将数据复制到 NIC 缓冲区，这样避免重新复制数据。

常用的零拷贝有 mmap 和 sendFile；

>>>mmap 通过内存映射，将文件映射到内核缓冲区，同时，用户空间可以共享内核空间的数据。这样，在进行网络传输时，就可以减少内核空间到用户空间的拷贝次数，但不减少上下文切换次数。

传统IO

mmap

sendfile

数据根本不经过用户态，直接从内核缓冲区进入到 Socket Buffer，同时，由于和用户态完全无关，就减少了一次上下文切换。

进一步优化：

Linux 在 2.4 版本中，做了一些修改，避免了从内核缓冲区拷贝到 Socket buffer 的操作，直接拷贝到协议栈，从而再一次减少了数据拷贝。

传统读取文件并发送到网络的流程：

硬盘->内核读取缓冲区->用户缓冲区->socket缓冲区->网卡

可以看到数据经过了多次的复制

而零拷贝就是利用硬件技术(DMA ，direct memory access)，跳过CPU，直接访问主内存，大大减少重复的数据复制

使用零拷贝技术读取文件并发送到网络的流程：

硬盘->内核读取缓冲区->网卡

可以看到，数据的复制次数明显减少

注：零拷贝并不是一次数据复制都没有，而是避免了在内核空间和用户空间之间的拷贝；数据还是需要从硬盘读到内核读取缓冲区的

4、分区分段+索引

Kafka的message是按topic分类存储的，topic中的数据又是按照一个一个的partition即分区存储到不同broker节点。每个partition对应了操作系统上的一个文件夹，partition实际上又是按照segment分段存储的。这也非常符合分布式系统分区分桶的设计思想。

通过这种分区分段的设计，Kafka的message消息实际上是分布式存储在一个一个小的segment中的，每次文件操作也是直接操作的segment。为了进一步的查询优化，Kafka又默认为分段后的数据文件建立了索引文件，就是文件系统上的.index文件。这种分区分段+索引的设计，不仅提升了数据读取的效率，同时也提高了数据操作的并行度。

5、批量读写

Kafka数据读写也是批量的而不是单条的。

除了利用底层的技术外，Kafka还在应用程序层面提供了一些手段来提升性能。最明显的就是使用批次。在向Kafka写入数据时，可以启用批次写入，这样可以避免在网络上频繁传输单个消息带来的延迟和带宽开销。假设网络带宽为10MB/S，一次性传输10MB的消息比传输1KB的消息10000万次显然要快得多。

6、批量压缩

在很多情况下，系统的瓶颈不是CPU或磁盘，而是网络IO，对于需要在广域网上的数据中心之间发送消息的数据流水线尤其如此。进行数据压缩会消耗少量的CPU资源,不过对于kafka而言,网络IO更应该需要考虑。