kafka是一个功能强大的消息系统,通过sub/pub来处理消息,可以实时处理流消息。
kafka有三个组成部分
publisher :是消息的发布者,负责产生消息
consumer : 是消息的消费者,负责使用消息
broker : 代理节点,消息首先发送给broker,由broker转发给相应的consumer
这三个组成部分都可以支持横向扩容,也就是说可以有多个broker或者consumer,又或是publisher
既然是pub/sub消息系统,那么kafaka肯定同样有topic这个概念。topic,简单理解就是一个队列,消息首先发送至这个队列,以先进先出的原则,被他人使用。kafka的topic有自己的特色,他将topic再划分为了多个partition。对于consumer而言,订阅的粒度就变小了,consumer订阅的是一个一个的partition。对于publisher而言,其发布到某个topic的消息以某种规则发布到某个partition当中。例如,topicA有三个partition,分别是partition1,partition2,partition3。那么topicA发布的某个消息m1,可能就是发送到partition2当中,只有订阅了partition2的consumers才能收到m1。
那么这样就是会产生一个问题,假如说consumerA订阅了topicA的partition1,现在m1是发布到partition2上,那么consumerA不是收不到这个消息了吗?这种情况其实不会发生,因为在kafka当中,有三个规则保证topic机制的正常运行
- consumer可以组成一个组,消费者以组的方式来订阅某个topic
- 所有的组内成员只能订阅某个topic的某个partiton一次
- 组内成员必须订阅完所有的partition
第三点意味着对于一个消费者组而言,他会订阅这个topic的所有partition,任何一个发送到这个topic的消息,都肯定存在一个consumer消费;第二点用来保证这个消息只会被一个consumer消费,因为组内只有一个consumer订阅这个partition。当然一个消费者可以同时订阅某个topic的多个甚至全部partition。