简介
1. 主要功能
Kafka作为一个分布式的流平台,有三个主要的功能:
- 发布和订阅消息流,类似于一个消息队列。
- 以容错的方式存储消息流。
- 在消息流发生时处理它们。
2. 基本术语及解释
- Topic和Partitions
topic是一个类别,生产者发送消息的时候发送到指定的topic下,每个topic可以有多个分区( partition ),每一个分区( partition )都是一个顺序的、不可变的队列,在物理上每个分区是一个文件夹,保存消息数据和索引文件,Kafka保证在partition中的消息是有序
的。
分区的消息都有一个有效期,在有效期内消息都会持久化地保留,无论消息是否被消费,可通过设置配置文件(config/server.properties)属性retention.ms控制topic分区数据多久被删除。Partition会被均匀分配到整个集群上,以实现更好的负载均衡。 - Producer
生产者( Producer )将消息发送到指定的topic,生产者可以指定topic下的哪一分区发送,如果没有指定,Java客户端有默认实现的DefaultPartitioner
,通过自增长数字和分区数取模或者hash
值与分区数取模取得指定的分区。每个分区都有一个唯一的偏移量( offset ),偏移量( offset )由消费者( Consumer )控制,消费者( Consumer )通过控制偏移量( offset )消费任意的消息。 - Consumer
每个消费者属于一个消费者组,一个消费者组有多个消费者,发布到topic的消息只能被每个订阅该topic的消费者组中的一个消费者消费。
订阅topic的所有消费者具有不同的消费者组,组成“发布-订阅”模式。
订阅topic的所有消费者具有相同的消费者组,组成“消息队列”模式,消息在消费者之间负载均衡。
消费者组中的消费者实例不能超过分区数,超过的那部分消费者不会消费topic中的任何消息。 - Broker
Kafka集群包含一个或多个服务器,这种服务器被称为broker