1.kafka本身是分布式集群,同时采用分区技术,并发度高。
2.顺序写磁盘,kafka的producer生产数据,要写入到log文件中,写的过程是一直追加到文件末端,为顺序写。官网有数据表明,同样的磁盘,顺序写能到600M/s,而随机写只有100k/s。
3.零复制技术
kafka需要将本地磁盘的数据通过网络发送给消费者,传统方式通过网络发送数据需要将文件先加载入内核态的Page Cache中,然后加载入程序application cache中,程序决定将数据发送给哪台机器,将文件加载入Socket Cache中,然后将数据通过网卡发送出去。这种方式一个文件会拷贝三份才能发送出去。
零拷贝则是文件只需要经过Page Cache就可以直接发送出去了,这样就极大的增加了发送数据的效率。
应用Page Cache,kafka将数据直接持久化到Page Cache中,其实就是内存中,这样有几个优点:1,I/O Scheduler 可以将多个小块的写组装成大块的写操作,降低了I/O次数。
2,利用空闲内存(非JVM内存),这样可以减少JVM的GC操作。
3,消费者可以直接从Page Cache中消费数据,如果生产和消费的速率相同,甚至可以不走磁盘来交换数据。
由于副本机制的存在,数据持久化到Page Cache中也不用担心数据丢失。