Kafka高性能之页缓存(page cache)使用

页缓存是操作系统实现的一种主要的磁盘缓存,以此用来减少对磁盘I/O的操作。具体来说,就是把磁盘中的数据缓存到内存中,把对磁盘的访问变为对内存的访问。为了弥补性能上的差异 ,现代操作系统越来越多地将内存作为磁盘缓存,甚至会将所有可用的内存用途磁盘缓存,这样当内存回收时也几乎没有性能损失,所有对于磁盘的读写也将经由统一的缓存。

当一个进程准备读取磁盘上的文件内容时,操作系统会先查看待读取的数据所在的页(page)是否在页缓存(page cache)中,如果存在(命中)则直接返回数据,从而避免了对物理磁盘I/O操作;如果没有命中,则操作系统会向磁盘发起读取请示并将读取的数据页写入页缓存,之后再将数据返回进程。同样,如果一个进程需要将数据写入磁盘,那么操作系统也会检测数据对应的页是否在页缓存中,如果不存在,则会先在页缓存中添加相应的页,最后将数据写入对应的页。被修改过后的页也就变成了脏页,操作系统会在合适的时间把脏页中的数据写入磁盘,以操作数据的一致性。

Linux操作系统中的vm.dirty_background_ratio参数用来指定当脏页数量达到系统内存的百分之多少之后就会触发pdflush/flush/kdmflush等后台回写进程的运行来处理脏页,一般设置为小于10%的值即可,但不建议设置为0.与这个参数对应的还一个vm.dirty_ratio参数,它用来指定当脏页数量达到系统内存的百分之多少之后就不得不开始对脏页进行处理,在此过程中,新的I/O请求会被阻挡直至所有脏页被冲刷到磁盘中。

对一个进程页言,它会在进程内部缓存处理所需的数据,然而这些数据有可能还缓存在操作系统的页缓存中,因此同一份数据有可能被缓存了2次。并且,除非使用Direct I/O的方式,否则页缓存很难被禁止。此外,Java对象的内存开销非常大,通常会是真实数据大小的几倍甚至更多,空间使用率你下;Java的垃圾回收会随着堆内数据的增多而变得越来越慢。基于这些因此,使用文件系统并依赖于页缓存的做法明显要优于维护一个进程内缓存或其它结构,至少可以省去一份进程内部的缓存消耗,同时还可以通过结构紧凑的字节码来替代使用对象的方式以节省更多的空间。如此,可以在32GB的机器上使用28GB至30GB的内存而不用担心GC所带来的性能问题。此外,即使Kafka服务重启,页缓存还是会保持有效,然而进程内的缓存却需要重建。这样也极大地简化了代码逻辑,因为维护页缓存和文件之间的一致性交由系统来负责,这样会比进程内维护更加安全有效。

Kafka中大量使用了页缓存,这是Kafka实现高吞吐的重要因此之一。虽然消息都是先被写入页缓存,然后由操作系统负责具体的刷盘任务,但在Kafka中同样提供了同步刷盘及间断性强制刷盘(fsync)的功能,这些功能可以通过log.flush.interval.message、log.flush.interval.ms等参数来控制。同步刷盘可以提高 消息的可行性,防止由于机器掉电等异常造成处于页缓存而没有及时写入磁盘的消息丢失。不过一般不建议这么做,刷盘任务就应交由操作系统去调配,消息的可靠性应该由多副本机制来保障,而不是由同步刷盘这种严重影响性能的行为来保障。

Linux系统会使用磁盘的一部分作为swap分区,这样可以进行进程的调度:把当前非活跃的进程调入swap分区,以此把内存空出来让给活跃的进程 。对大量使用系统页缓存的Kafka而言,应当尽量避免这种内存的交换,否则会对它各方面的性能产生很大的负面影响。可以通过修改vm.swappiness参数(Linux系统参数)来进行调节。vm.swappiness参数上限为100,它表示积极地使用swap分区,并把内存上的数据及时搬运到swap分切中;vm.swappiness参数下限为0,表示在任何情况 下都不要发生交换,这样一来,当内存耗尽时会根据一定的规则突然路上某些进程。笔者建议将这个参数的值设置为1,这样保留了swap的机制而又最大限度地限制了它对Kafka性能的影响。

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
为了实现高性能Kafka从以下几个方面进行了优化: 1. 批处理:Kafka通过批量处理消息来提高性能。生产者可以将多个消息一起发送到Kafka代理,而不是单独发送每个消息。消费者也可以一次拉取多个消息,而不是单独拉取每个消息。这种批处理方式可以减少网络开销和磁盘IO,从而提高性能。 2. 零拷贝:Kafka使用零拷贝技术来避免数据在内存和磁盘之间的复制。当消息从生产者发送到Kafka代理时,Kafka可以直接将消息从内存复制到网络套接字缓冲区中,而不需要将消息从内存复制到用户空间缓冲区,再从用户空间缓冲区复制到内核空间缓冲区,最后再从内核空间缓冲区复制到网络套接字缓冲区。这种零拷贝方式可以减少CPU和内存的开销,从而提高性能。 3. 分区和副本:Kafka将每个主题分成多个分区,并将每个分区的数据复制到多个副本中。这种分区和副本的方式可以提高并发性和可靠性。生产者可以将消息发送到不同的分区,消费者可以从不同的副本读取消息,从而提高并发性。如果某个副本失效,Kafka可以从其他副本中恢复数据,从而提高可靠性。 4. 高效压缩:Kafka支持多种压缩算法,包括Gzip、Snappy和LZ4。这些压缩算法可以在减少网络传输数据的同时,保证数据的可靠性和完整性。 下面是一个使用Kafka Python客户端库kafka-python发送和接收消息的例子: ```python from kafka import KafkaProducer, KafkaConsumer # 生产者发送消息 producer = KafkaProducer(bootstrap_servers=['localhost:9092']) producer.send('test', b'hello world') # 消费者接收消息 consumer = KafkaConsumer('test', bootstrap_servers=['localhost:9092']) for message in consumer: print(message.value) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值