kafka高效之一：文件系统

最新推荐文章于 2024-07-23 14:53:02 发布

iie_libi

最新推荐文章于 2024-07-23 14:53:02 发布

阅读量613

点赞数

分类专栏：分布式消息服务

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iie_libi/article/details/57121672

版权

分布式消息服务专栏收录该内容

35 篇文章 1 订阅

订阅专栏

kafka关键特⾊
• 可伸缩架构
• 高吞吐量
• consumer自动负载均衡
• 支持集群多副本

而本博客是一个kafka文件系统深入过程。

存储结构

目的：提高磁盘利用率和消息处理性能。

1. 在kafka文件系统中，同一个topic下有多个不同partition，每个partition创建一个目录。即topic下有分区的子目录。

2. 每个partion相当于一个巨型文件被平均分配到多个大小相等的多个segment(段)文件中。但每个段segment file消息数量不一定相等，这种特性方便old segment file快速被删除。即分区目录下log文件大小一样。而且一个分区段文件（log文件）对应一个索引文件（index文件）

3. 每个partiton只需要支持顺序读写就行了，segment文件生命周期由服务端配置参数决定。

4. index为稀疏索引结构，并不存储每条记录的元数据信息。

如何在partition中快速定位segment file

同一个topic下有不同分区，每个分区下面会划分为多个(段)文件，只有一个当前文件在写（一个分区对应一个消费者），其他文件只读。当写满一个文件（写满的意思是达到设定值）则切换文件，新建一个当前文件用来写，老的当前文件切换为只读。文件的命名以起始偏移量来命名。删除文件时，使用了写时复制技术。
当消费者要拉取某个消息起始偏移量位置的数据变的相当简单，只要根据传上来的offset⼆分查找文件列表，定位到具体文件，然后根据索引文件⼆分搜索，定位到index中的offset，读取log文件的偏移量，定位到log，即可开始传输数据。

高效文件系统特点

1．一个大文件分成多个小文件段。

2．多个小文件段，容易定时清除或删除已经消费完文件，减少磁盘占用

3．index，log全部映射到memory直接操作，使用零拷贝加页缓存技术，避免segment file被交换到磁盘增加IO操作次数。

4．根据索引元数据信息，可以确定consumer每次批量拉取最大msg chunk数量。

5．索引文件元数据存储用的是相对前个segment file的 offset存储，节省空间⼤小

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

iie_libi CSDN认证博客专家 CSDN认证企业博客

码龄8年

38: 原创

74万+: 周排名

205万+: 总排名

17万+: 访问

: 等级

2248: 积分

49: 粉丝

42: 获赞

11: 评论

120: 收藏

私信

关注

热门文章

分类专栏

最新评论

多源异构环境下数据库的同步复制技术研究
Tapdata 钛铂数据: 免费异构数据库实时同步工具 —— Tapdata Cloud 支持 Oracle、MySQL、PostgreSQL、SQL Server、MongoDB、Elasticsearch 、达梦、Kafka等主流库之间的数据迁移和同步，即将支持 DB2、Sybase ASE、Redis、GBase、GaussDB 等。https://cloud.tapdata.net ，0代码可视化操作，非常方便可以试试。
rsync+inotify实现实时单向同步
蜗牛哲学: 成功了，感谢博主。另外，如果端口不为22的话，可以在`/usr/bin/rsync -ahqzt`后面添加`-e ssh -p 端口号`进行传输。
rocketmq原理：name server ，broker， producer， consumer之间通信
herriman 回复爱学习爱聊天: DefaultMQProducerImpl的690行开始： private SendResult sendKernelImpl String brokerAddr = this.mQClientFactory.findBrokerAddressInPublish(mq.getBrokerName()); if (null == brokerAddr) { tryToFindTopicPublishInfo(mq.getTopic()); brokerAddr = this.mQClientFactory.findBrokerAddressInPublish(mq.getBrokerName()); } 所以应该是会重新拿topic的其它broker的地址，如果实在没有了。就throw new MQClientException("The broker[" + mq.getBrokerName() + "] not exist", null);
并发与事务
生产队队长: 看不懂，烦的一
rocketmq原理：name server ，broker， producer， consumer之间通信
爱学习爱聊天: 请问master宕机，不能写入消息，这时候生产端连接该master的后续操作是什么

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。