深入理解kafka原理和细节

本文深入探讨Kafka的架构、存储原理及核心机制,包括其异步通信机制、分区并行、消息持久化、领导者选举、故障恢复、幂等性、事务机制等,旨在揭示Kafka在大数据框架中的高效与可靠性。
摘要由CSDN通过智能技术生成

一、kafka架构、存储原理

 

 

引言

对于网络应用来说,网络数据传输延迟是不确定的,这种时候同步消息机制(即阻塞等待响应)就太慢了,所以需要异步通信机制。既然所有框架都有同样的需求,那自然需要一个专门处理异步通信的框架,即实现消息队列(MQ),这就是Kafka。

 

kafka基础架构

kafka基于发布订阅模式,请求交给MQ队列,MQ队列负责代理请求的发送和响应信息的接收。大数据框架中这种信息交流的可靠性要求很高,因而消息会被kafka持久化。多个订阅者(消费者)即从kafka中得到信息。

为了 提高并行效率,kafka使用partition,部署多个分区在多个节点,同时工作,注意分区是并行的,而不是副本策略。其次,为了进一步利用集群各个节点,消费者一般为一个组,组成员分别从分区里并行读取数据,是吞吐量最大化。

为了安全考虑,kafka还有相应的备份机制,实现方式是HA类似的热备份,其中只有一个是工作节点,其余是伴随节点,在故障时启用。

安装与命令行操作

见参考资料

存储原理

一个partition对应一个log文件,消息不断地添加到log文件之后,为了便于检索,保存log的同时还会保存索引文件,而对于每个log,又可以分为多个segment。如下图:

 

按照上述结构,索引的过程应该是:先找到正确的segment,再找到对应的记录。segment的命名正是消息偏移量。

 

二、生成者核心机制

 

 

kafka消息安全性

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值