深入理解kafka原理和细节

最新推荐文章于 2024-07-02 10:03:51 发布

KDLin

最新推荐文章于 2024-07-02 10:03:51 发布

阅读量378

点赞数 1

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CsWarmSun/article/details/111308439

版权

本文深入探讨Kafka的架构、存储原理及核心机制，包括其异步通信机制、分区并行、消息持久化、领导者选举、故障恢复、幂等性、事务机制等，旨在揭示Kafka在大数据框架中的高效与可靠性。

摘要由CSDN通过智能技术生成

一、kafka架构、存储原理

引言

对于网络应用来说，网络数据传输延迟是不确定的，这种时候同步消息机制（即阻塞等待响应）就太慢了，所以需要异步通信机制。既然所有框架都有同样的需求，那自然需要一个专门处理异步通信的框架，即实现消息队列（MQ)，这就是Kafka。

kafka基础架构

kafka基于发布订阅模式，请求交给MQ队列，MQ队列负责代理请求的发送和响应信息的接收。大数据框架中这种信息交流的可靠性要求很高，因而消息会被kafka持久化。多个订阅者（消费者）即从kafka中得到信息。

为了提高并行效率，kafka使用partition，部署多个分区在多个节点，同时工作，注意分区是并行的，而不是副本策略。其次，为了进一步利用集群各个节点，消费者一般为一个组，组成员分别从分区里并行读取数据，是吞吐量最大化。

为了安全考虑，kafka还有相应的备份机制，实现方式是HA类似的热备份，其中只有一个是工作节点，其余是伴随节点，在故障时启用。

安装与命令行操作

见参考资料

存储原理

一个partition对应一个log文件，消息不断地添加到log文件之后，为了便于检索，保存log的同时还会保存索引文件，而对于每个log，又可以分为多个segment。如下图：

按照上述结构，索引的过程应该是：先找到正确的segment，再找到对应的记录。segment的命名正是消息偏移量。

二、生成者核心机制

kafka消息安全性

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。