Kafka数据存储

前言

  不同于Redis和Memcache等内存消息队列,Kafka的设计是把所有的Message都要写入速度低容量大的硬盘,以此来换取更强的存储能力。实际上,Kafka使用硬盘并没有带来过多的性能损失。Kafka在磁盘上只做Sequence I/O。首先,Kafka重度依赖底层操作系统提供的PageCache功能。当上层有写操作时,操作系统只是将数据写入PageCache,同时标记Page属性为Dirty,当读写操作发生时,先从PageCache中查找,如果发生缺页才进行磁盘调度,最终返回需要的数据。实际上PageCache是把尽可能多的空闲内存都当做了磁盘缓存来使用,同时如果有其他进程申请内存,回收PageCache的代价又很小。
  使用PageCache功能同时可以避免在JVM内部缓存数据以及JVM的GC问题。如果在Heap内管理缓存,JVM的GC线程会频繁扫描Heap空间,带来不必要的开销。如果Heap过大,执行一次Full GC对系统的可用性来说将是极大的挑战。所有在JVM内的对象都不免带有一个Object Overhead,内存的有效空间利用率会因此降低。所有的In-Process Cache在OS中都有一份同样的PageCache,所以通过将缓存只放在PageCache,可以至少让可用缓存空间翻倍。如果Kafka重启,所有的In-Process Cache都会失效,而OS管理的pageCache依然可以继续使用。

除了PageCache,Kafka还采用了SendFile技术,具体参见:Kafka高吞吐低延迟原理

 - Topic
 - Partition:一个topic可以分为多个partition
 - Segment:每个partition又由多个segment file组成
 - offset:每个partition都由一系列有序的、不可变的消息组成,这些消息被连续的追加到partition中
 		   partition中的每个消息都有一个连续的序列号叫做offset,用于partition唯一标识一条消息
 - message:kafka文件中最小的存储单位

  在Kafka文件存储中,同一个Topic下有多个不同partition,每个partition为一个目录&#

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值