kafka存储

1.专用名词

  • 分区 日志(Log)
    不考虑多副本的情况,一个分区对应一个日志
    Log 对应一个- 的文件名

  • 日志 日志分段(LogSegment)
    Log和LogSegment不是纯粹物理意义上的概念。
    Log在物理上以文件夹形式存储
    LogSegment对应于磁盘上的一个日志文件和两个索引文件,以及其他可能的文件(比如事物索引文件)

  • activeSegment
    表示当前活跃的LogSegment。
    向Log追加消息是顺序的,只有最后一个LogSegment才能执行写入操作;最后一个LogSegment就是activeSegment

  • offset
    偏移量是一个64位的长整形数

  • baseOffset
    基准偏移量,每个LogSegment用来表示第一条消息的offset

2.LogSegment

一个LogSegment包含:以log为后缀的日志文件、偏移量索引文件(以index为后缀)、时间戳索引文件
日志文件、偏移量索引文件以及时间戳索引文件都是根据基准偏移量命名,名称固定为20位数字,没有达到的位数高位用0补充
kafka中的索引文件以稀疏索引 的方式构造消息索引,它并不保证每条消息在索引文件中都有对应的索引项

2.1 偏移量索引文件

它用来建立消息偏移量到物理磁盘地址之间的映射关系,方便快速定位消息所在的物理位置
偏移量索引占用8个字节,高四字节表示relativeOffset(相对偏移量),第四字节表示消息的物理位置
相对偏移量是相对于基准偏移量的,每个LogSegment都有一个baseOffset(基准偏移量)

2.2 时间戳索引文件

根据指定的时间戳来查找对应的偏移量信息
时间戳索引占用12字节,高8字节表示当前日志分段的最大时间戳,低4字节表示时间戳对应的relativeOffset(相对偏移量)

3. kafka V2版本消息结构

在这里插入图片描述

4.kafka存储

kafka采用追加的方式在磁盘顺序存储
顺序写磁盘的速度比随机写内存的速度还快
kafka大量使用了页缓存
kafka使用了零拷贝技术,底层通过DMA实现,减少了用户态内核态的切换

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值