是什么
基本概念
- Kafka是一款开源分布式消息引擎系统,也是一个分布式流处理平台。
- 消息引擎系统:系统A将消息发送给消息引擎系统,系统B从消息引擎系统里读取A发送的消息,总结起来就这两件事
核心功能
- 传输对象的消息是什么
- 如何传输消息
编码格式与传输协议
- Kafka采用纯二进制的字节序列作为消息编码格式
- 传输协议
- 点对点模型
- 发布 / 订阅模型
三层消息架构
- 主题层:每个主题可以有M个分区,承载消息的逻辑容器,区分具体的业务
- 分区层:每个分区可以配置N个副本,只有一个是Leader角色,对外服务,客户端只能与分区的领导者副本进行交互,其他N-1个副本都是追随者副本,提供数据冗余,不对外提供服务。
- 消息层:Kafka处理的主要对象,分区里包含了若干个消息,消息的位移从0开始,依次递增
持久化数据
Kafka使用一个只能追加写的物理文件来保存消息日志数据,通过追加写更好的利用顺序IO的特性,是Kafka高吞吐量的一个重要手段。
常见术语
- 主题(Topc):每个主题可以有M个分区,承载消息的逻辑容器,区分具体的业务
- 分区(Partition):每个分区可以配置N个副本,只有一个是Leader角色,对外服务,客户端只能与分区的领导者副本进行交互,其他N-1个副本都是追随者副本,提供数据冗余,不对外提供服务。
- 副本(Replica):Kafka同一条消息能够被拷贝到多个地方以提供冗余,这些地方就是所谓的副本,副本分为领导者副本和追随者副本,各自有不同的角色划分。
- 消息(Record):Kafka处理的主要对象,分区里包含了若干个消息,消息的位移从0开始,依次递增
- 消息位移(Offset):表示分区中每条消息的位置信息,是一个单调递增且不变的值。
- 消费者位移(Consumer Offset):表示消费者消费进度,每个消费者都有自己的消费者位移。
- 生产者(Producer):向主题发布新消息的应用程序
- 消费者(Consumer):从主题订阅新消息的应用程序
- 消费者组(Consumer Group):多个消费者实例共同组成一个组,同时消费多个分区以实现高吞吐。
- 重平衡(Rebalance): 消费者组内某个消费者实例挂掉后,其他消费者实例自动重新分配订阅主题分区的过程。Rebalance是Kafka消费端实现高可用的重要手段。