Kafka高吞吐量的原因

Kafka是基于分布式的发布—订阅消息系统,主要具有高吞吐量,持久性,分布式等特点,本文主要介绍Kafka的高吞吐量

  • 第一点,区别于传统的拷贝方式,Kafka使用了零拷贝技术

    • 传统的读取文件数据并发送到网络:

    • 操作系统将数据从磁盘文件中读取到内核空间的页面缓存

    • 应用程序将数据从内核空间读入用户空间缓冲区

    • 应用程序将读到数据写回内核空间并放入socket缓冲区

    • 操作系统将数据从socket缓冲区复制到网卡接口,此时数据才能通过网络发送

    • “零拷贝技术”只用将磁盘文件的数据复制到页面缓存中一次,然后将数据从页面缓存直接发送到网络中(发送给不同的订阅者时,都可以使用同一个页面缓存),避免了重复复制操作

  • 第二点,Kafka利用了操作的 Page Cache以及Kafka是基于磁盘顺序读写的

    • 生产者发送消息时首先会发送到Broker端的Page Cache中,然后再将消息刷写至磁盘中,并且对磁盘的读写时基于磁盘顺序读写的,它的message是不断追加到本地磁盘文件末尾,而基于磁盘的顺序存储的速度甚至超过基于内存的随机读写
  • 第三点,批量写入,Kafka在prodecer端在写入数据时可以启动批次写入

  • 第四点,批量压缩

    • **Kafka把所有的消息都变成一个批量的文件,并且进行合理的批量压缩,减少网络IO损耗,提高I/O速度,写入数据的时候由于单个Partion是末尾添加所以速度最优;读取数据的时候配合sendfile直接暴力输出
  • 第五点,分区分段+索引:

    • Kafka的message是按topic分类存储的,topic中的数据又是按照一个一个的partition即分区存储到不同broker节点。每个partition对应了操作系统上的一个文件夹,partition实际上又是按照segment分段存储的,Kafka又默认为分段后的数据文件建立了索引文件,就是文件系统上的.index文件。这种分区分段+索引的设计,不仅提升了数据读取的效率,同时也提高了数据操作的并行度

感谢阅读,文章如有错误欢迎大家指出~

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值