kafka-日志格式

kafka的topic-partition文件夹下有多个文件包括 .log .idex .timeindex 这三个核心文件 还包括 .deleted .cleaned .swap 等临时文件 还可能有 .snapshot .txnindex leader-epoch-checkpoint 等文件

.log文件是kafka的数据文件,主要研究一下 .log文件

kafka的日志文件经过多次升级,已达到更大的压缩率和实现更多的功能,记录更多的信息

日志的命令是第一条数据的offset加文件后缀 例如 00000000000000000098.log,第一条数据的偏移量是98,名称一共20位数字,不足用0补起

一.v0版本的日志文件

kafka 0.10.0之前都采用v0格式

如图所示,offset和message size是消息的头部(LOG_OVERHEAD),record是消息实体,offset占8B,message size占4B,固定为12B

RECORD的格式如下图:

crc32校验magic至value的值

magic此版本为0

attributes:消息属性,低三位为压缩类型0:NONE,1:GZIP,2:SNAPPY,3LZ4  ,其余5位未使用

 

二.v1版本消息

kafka从0.10.0到0.11.0使用v1版本的RECORD,比v0多一个时间戳字段timestamp(8B),同时attributes字段的第四位表示时间戳的类型,其他4位未使用

三.v2版本的消息

kafka从0.11.0开始升级消息格式位v2

v2格式的消息较之前有很大变化,参考Protocol Buffer引入了变长整型Varints和zigzag编码,具体设计较多算法,不展开

v2的消息比之前复杂很多,需要分3部分解释,关系是一个RecordBatch包含多个Record,其中Record包含多个Header,RecordBatch对应了发送消息的ProducerBatch

1.Header部分,我们知道kafka 发送消息可以带Header作为附属信息,Header的结构如下:

varint表示变长类型,即Varints

2.Record部分如下图,去掉了crc字段,增加了length(消息总长度),timestap delta(时间戳增量),offset delta(位移增量),headers(上面讲的header结构)

其中attributes已经弃用,作为保留字段

timestamp delta 和offset delta都是相对于RecordBatch起始位置的增量,使用增量数据可以节省很多空间

3.RecordBatch部分,如下图

针对特殊字段说明如下:

magic=2

producer id:PID,producer epoch,first sequence,用来支持幂等和事务

下面放一张完整的图

四.消息日志dump

了解了消息日志的格式,介绍一下解析消息日志的方法:

kafka-dump-log.sh

例如:

进一步解析消息实体

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值