深入分析Kafka架构（一）：工作流程、存储机制、分区策略

最新推荐文章于 2024-08-26 15:39:29 发布

且听_风吟

最新推荐文章于 2024-08-26 15:39:29 发布

阅读量3.3k

点赞数 35

分类专栏： kafka 文章标签： kafka 大数据存储机制分区策略工作流程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26803795/article/details/105489068

版权

本文深入剖析Kafka的工作流程，包括消息的offset、MessageSize和data组成。详细讲解文件存储机制，如分片、索引和segment结构，以及如何通过offset查找message。同时，讨论了分区策略的原因和实现方式，包括指明partition、key的hash取余和round-robin算法。通过对Kafka的深入理解，为大数据实时处理提供关键洞察。

摘要由CSDN通过智能技术生成

本文目录

一、前言

在开始之前首先要明确一点，kafka是一个分布式流平台，本质上是一个消息队列。谈到消息队列，就会联想到消息队列的三大作用：异步、消峰、解耦。kafka主要应用在大数据的实时处理领域，使用起来比较简单，本文主要分析kafka的工作流程、存储机制，分区策略，并围绕多个角度展开总结。

但是要注意的是，随着时代的巨轮驶向2020，目前kafka已经不是一家独大了，Pulsar作为一个天生支持多租户、跨地域复制、统一消息模型的消息平台，已经在不少企业成功的替代了Kafka。关于Apache Pulsar的更多知识，感兴趣的可以关注我，后面会对它进行总结和深入。

二、kafka工作流程

工作流程

kafka将消息按照topic进行分类，每条message由三个属性组成。
- offset：表示 message 在当前 Partition 中的偏移量，是一个逻辑上的值，唯一确定了 Partition 中的一条 message，可以简单的认为是一个 id；
- MessageSize：表示 message 内容 data 的大小；
- data：message 的具体内容
在整个kafka架构中，生

最低0.47元/天解锁文章

关注

35
点赞
踩
34

收藏

觉得还不错? 一键收藏
27
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 27

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。