kafka官方网址:http://kafka.apache.org/
kafka是什么 :官方给出的答案是 Apache Kafka is publish-subscribe messaging rethought as a distributed commit log
kafak是一个分布式发布-订阅模式的消息服务工具,依赖于zookeeper进行工作。kafak和普通的mq不同的时,kafak不是按照jms的规范实现的,如何不同的,官方给出了如下几点
通俗的来说就是
1 kafak按照topic对消息进行分类
2 发送消息者为生产者(这没什么不同)
3 订阅消息者为消费者(也一样啊)
4 kafak一一个或多个server组成的集群来运行,每一个server都称为一个broker
以下是官网的示例图
kafak如何发布消息的,看官网的示例图
kafak是按照topic来进行发布消息,一个topic可能有多个分区(partition),每一个分区就是一个消息队列,这个队列其实就是commit log,新的消息总是追加到队列的后面。
需要注意的是 1 每一个分区的消息是有序的
2 每一条消息在分区里都有一个序列,叫做offset(偏移量),这个个offset就唯一区分者每一条消息
3 kafak不会删除已经消费的消息,而是不管消息是否消费都一并按照broker的配置保留一段时间,如broker配置保留2天,那就统一保留2天
4 消费者消费消息是按照顺序消费,消费一个offset就移动一个,但是已消费消费不会马上清除,而会继续保留,维持队列完整
5 offset 由消费者维护,消费可以任意修改offset从而达到二次消费的目的
kafka 允许多个消费组同时订阅一个topic,不同的消费组可以对同一条消息进行重复消费,并不进行互斥。比如有消费组A和消费组B,都订阅了topic xxx,当生产者C发布一个topic为xxx的消息,消费组A和消费组B都会收到消息。
如图,kafak 集群包含server1和server2,server1包含p0和p3两个分区,server2包含p1和p2两个分区,消费组A和消费者C1和C2,消费组B包含C3,C3,C5,C6。
kafak有个重要功能就是分区(partion),分区的目的其实是为了做负载均衡,在有多个分区的情况下,写入kafak的消息会按照一定的hash方法,将消息分散在不通的分区上,每个分区都独自维护偏移量(offset).每个分区的消息,仍然保证顺序消费。