kafka！还好我留了一手

最新推荐文章于 2024-05-22 11:52:35 发布

VIP文章 Moonxiyue

最新推荐文章于 2024-05-22 11:52:35 发布

阅读量112

点赞数

分类专栏： Java kafka 文章标签： kafka java 分布式

本文链接：https://blog.csdn.net/Moonxiyue/article/details/125339216

版权

本文已参与「掘力星计划」，赢取创作大礼包，挑战创作激励金。

本文面试情节虚假，但知识真实，请在家人或者朋友的陪同下仔细观看，防止在观看的过程发呆、走神导致没学到知识。

性能篇

一位身穿格子衬衣，头发好似一拳超人的中年人走了过来，没错他就是面试官，他手握简历，若有所思，我当时害怕极了，然后他开口：小伙子啊，我们这边是基础架构的中间件组，既然你的简历没提到kafka，那我接下来问问你kafka的知识吧。

我：好的，kafka平时看的不多，但也还了解一点，不是特别精通所以没写了。（嘿嘿，我是故意没写的，早就知道你要来这一套，kafka其实是俺最精通的东西了）
面试官捋了捋他那稀疏的胡须：那我们开始吧，先说说kafka的Log文件存在什么地方？
我：kafka的topic可以分区，所以Log对应了一个命名形式为topic-partition的文件夹，比如对于一个有两个分区的topic来说，它的log分别存在xxx/topic-1和xxx/topic-2中。
面试官：那按照这样的说法，所以log文件的位置应该就是xxx/topic-1/data.log或者xxx/topic-2/data.log？
我：不是的，kafka的log会分段，每个分区文件夹下，其实有很多的log段，它们共同组成了log，每个日志段大小是1G，如果一个日志段写完，会自动写入一个新的段。
面试官：为什么要分段？不分段行不行？
我：分段可以很好的维护数据，首先不分段，当查找一条数据的时候会很麻烦，就像在一本没有目录的新华字典里找数据一样，如果分了段我们只要知道数据在哪个段中，然后在对应的段中查找即可。同时由于log是持久化磁盘的，磁盘的空间不可能无穷无尽的，当需要清除一些老数据，通过分段机制，只需要删除较老的数据段即可。
面试官：hold on，hold on～，你说分了段后我们只要知道数据在哪个段中即可，那么我们怎么知道数据在哪个段中的？
我：easy，easy～，kafka内部维护一个跳跃表，跳跃表的节点就是每个段的段号。这样当查询数据的时候，先根据跳跃表就可以快速定位到目标数据段。
面试官：跳跃表是可以加速访问，但是每个段的段号是咋确定的？
我：kakfa的段号其实就是根据偏移量来的，它代表当前段内偏移量最小的那条数据的offset，比如：

segment1的段号是200，segment2的段号

最低0.47元/天解锁文章

Moonxiyue

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kafka！还好我留了一手

本文已参与「掘力星计划」，赢取创作大礼包，挑战创作激励金。本文面试情节虚假，但知识真实，请在家人或者朋友的陪同下仔细观看，防止在观看的过程发呆、走神导致没学到知识。一位身穿格子衬衣，头发好似一拳超人的中年人走了过来，没错他就是面试官，他手握简历，若有所思，我当时害怕极了，然后他开口：小伙子啊，我们这边是基础架构的中间件组，既然你的简历没提到kafka，那我接下来问问你kafka的知识吧。我：好的，kafka平时看的不多，但也还了解一点，不是特别精通所以没写了。（嘿嘿，我是故意没写的，早就知道你要来这一套，k
复制链接

扫一扫