一、kafka架构、存储原理
引言
对于网络应用来说,网络数据传输延迟是不确定的,这种时候同步消息机制(即阻塞等待响应)就太慢了,所以需要异步通信机制。既然所有框架都有同样的需求,那自然需要一个专门处理异步通信的框架,即实现消息队列(MQ),这就是Kafka。
kafka基础架构
kafka基于发布订阅模式,请求交给MQ队列,MQ队列负责代理请求的发送和响应信息的接收。大数据框架中这种信息交流的可靠性要求很高,因而消息会被kafka持久化。多个订阅者(消费者)即从kafka中得到信息。
为了 提高并行效率,kafka使用partition,部署多个分区在多个节点,同时工作,注意分区是并行的,而不是副本策略。其次,为了进一步利用集群各个节点,消费者一般为一个组,组成员分别从分区里并行读取数据,是吞吐量最大化。
为了安全考虑,kafka还有相应的备份机制,实现方式是HA类似的热备份,其中只有一个是工作节点,其余是伴随节点,在故障时启用。
安装与命令行操作
见参考资料
存储原理
一个partition对应一个log文件,消息不断地添加到log文件之后,为了便于检索,保存log的同时还会保存索引文件,而对于每个log,又可以分为多个segment。如下图:
按照上述结构,索引的过程应该是:先找到正确的segment,再找到对应的记录。segment的命名正是消息偏移量。
二、生成者核心机制
kafka消息安全性