kafka-日志格式

最新推荐文章于 2024-06-04 07:52:15 发布

idealemail

最新推荐文章于 2024-06-04 07:52:15 发布

阅读量1.1k

点赞数

分类专栏： kafka 文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/idealemail/article/details/109528250

版权

kafka 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

kafka的topic-partition文件夹下有多个文件包括 .log .idex .timeindex 这三个核心文件还包括 .deleted .cleaned .swap 等临时文件还可能有 .snapshot .txnindex leader-epoch-checkpoint 等文件

.log文件是kafka的数据文件,主要研究一下 .log文件

kafka的日志文件经过多次升级,已达到更大的压缩率和实现更多的功能,记录更多的信息

日志的命令是第一条数据的offset加文件后缀例如 00000000000000000098.log,第一条数据的偏移量是98,名称一共20位数字,不足用0补起

一.v0版本的日志文件

kafka 0.10.0之前都采用v0格式

如图所示,offset和message size是消息的头部(LOG_OVERHEAD),record是消息实体,offset占8B,message size占4B,固定为12B

RECORD的格式如下图:

crc32校验magic至value的值

magic此版本为0

attributes:消息属性,低三位为压缩类型0:NONE,1:GZIP,2:SNAPPY,3LZ4 ,其余5位未使用

二.v1版本消息

kafka从0.10.0到0.11.0使用v1版本的RECORD,比v0多一个时间戳字段timestamp(8B),同时attributes字段的第四位表示时间戳的类型,其他4位未使用

三.v2版本的消息

kafka从0.11.0开始升级消息格式位v2

v2格式的消息较之前有很大变化,参考Protocol Buffer引入了变长整型Varints和zigzag编码,具体设计较多算法,不展开

v2的消息比之前复杂很多,需要分3部分解释,关系是一个RecordBatch包含多个Record,其中Record包含多个Header,RecordBatch对应了发送消息的ProducerBatch

1.Header部分,我们知道kafka 发送消息可以带Header作为附属信息,Header的结构如下:

varint表示变长类型,即Varints

2.Record部分如下图,去掉了crc字段,增加了length(消息总长度),timestap delta(时间戳增量),offset delta(位移增量),headers(上面讲的header结构)

其中attributes已经弃用,作为保留字段

timestamp delta 和offset delta都是相对于RecordBatch起始位置的增量,使用增量数据可以节省很多空间

3.RecordBatch部分,如下图

针对特殊字段说明如下:

magic=2

producer id:PID,producer epoch,first sequence,用来支持幂等和事务

下面放一张完整的图

四.消息日志dump

了解了消息日志的格式,介绍一下解析消息日志的方法:

kafka-dump-log.sh

例如:

进一步解析消息实体

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kafka-日志格式

kafka的topic-partition文件夹下有多个文件包括 .log .idex .timeindex 这三个核心文件还包括 .deleted .cleaned .swap 等临时文件还可能有 .snapshot .txnindex leader-epoch-checkpoint 等文件.log文件是kafka的数据文件
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。