目录
消息中间件需要满足的功能
基本需求
- 实现消息的发送和接收、NIO通信(序列化/反序列化)
- 实现消息存储的需求(持久化、非持久化)
- 是否支持跨语言
- 消息的确认(确认机制)
- 是否支持集群
高级需求
- 消息是否支持有序
- 是否支持事务消息
- 是否能够支持高并发和大数据的存储
- 是否支持可靠性存储
- 是否支持多协议
- 是否收费
kafka概述
Kafka传统定义:Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。
发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息。
Kafka最新定义:Kafka是一个开源的分布式事件流平台(Event Streaming Platform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。
应用场景
应用场景-缓存消峰
应用场景-解耦
应用场景-异步通信
消费模式
点对点模式和发布/订阅模式
单播消息
**在一个kafka的topic分区中,在同一个消费组中启动多个消费者,那么同一消费组中只有一个消费者可以收到订阅的topic中的消息,也就是说同一个消费组中只能有一个消费者能消费该partition的消息。**
$ bin/kafka-console-consumer.sh --bootstrap-server 10.20.30.40:9092 --consumer-property group.id=group1 --topic hello
多播消息
**不同的消费组订阅同一个partition中,消费组之间互不影响,那么每个消费组都能消费消息,如下在不同消费组中启动的两个消费客户端都可以收到消息topic的消息(这里的topic只有一个partition)。 **
$ bin/kafka-console-consumer.sh --bootstrap-server 10.20.30.40:9092 --consumer-property group.id=group1 --topic hello
$ bin/kafka-console-consumer.sh --bootstrap-server 10.20.30.40:9092 --consumer-property group.id=group2 --topic hello
下图就是描述单播和多播的区别:
**总结:**
1.一个partition只能被同一消费组中的一个消费者消费,是为了保证消息的顺序性
2.partition数量决定了同一消费组中消费者的数量,建议设置消费组中的消费者数量不要超过partition的数量
3.partition个数决定kafka 中topic 的并行度,所以想要提高topic的消费能力,应该增大partition数
基础架构
同一个topic有三个pardition,然后被两个消费者组消费
偏移量offset提交方式
参考
自动提交偏移量
最简单的方式是让消费者自动提交偏移量。如果enable.auto.commit被设为true,那么每过5s,消费者会自动把从poll()方法接收到的最大偏移量提交上去。提交时间间隔由auto.commit.interval.ms控制,默认值是5s。自动提交也是在轮询里进行的,消费者每次在进行轮询时会检查是否该提交偏移量了,如果是,那么就会提交从上一次轮询返回的偏移量。
在使用自动提交时,每次调用轮询方法都会把上一次调用返回的偏移量提交上去,它并不知道具体哪些消息已经被处理了,所以再次调用之前最好确保所有当前调用返回的消息都已经处理完毕(在调用close()方法之前也会进行自动提交)。
**缺点:**由此我们知道自动提交的方式是有弊端的,如果你是同步处理数据,再均衡时很容易发生消息重复,如果你是异步处理数据,则易发生数据丢失,这都是我们不想看到的。
手动提交当前偏移量
开发者可以在必要的时候提交当前偏移量,而不是基于时间间隔。
把enable.auto.commit设为false,让应用程序决定何时提交偏移量。使用commitSync()提交偏移量最简单最可靠。这个API会提交由poll()方法返回的最新偏移量,提交成功后马上返回,如果提交失败就抛出异常。在处理完所有记录后要确保调用了commitSync(),否则还是会有丢失消息的风险。如果发生了再均衡,从最近一批消息到发生再均衡之间的所有消息都将被重复处理。
异步提交当前偏移量
手动提交由一个不足之处,在broker对提交请求作出回应之前,应用程序会一直阻塞,这样会限制应用程序的吞吐量。此时可以使用异步提交API,无需等待broker的相应
Consumer.commitAsync();
异步的缺点:提交失败之后不会进行重试,因为在收到服务器相应的时候,可能有一个更大的偏移量已经提交成功。可以使用异步提交的回调记录下错误信息和偏移量。
同步和异步组合提交
如果一切正常,使用commitAsync()方法来提交。这样速度更快,而且即使这次提交失败,下一次提交很可能会成功。
如果直接关闭消费者,就没有所谓的下一次提交了。在异常处理后使用commitSync()提交。
提交特定的偏移量
上述几种方式的提交偏移量的频率与处理消息批次的频率是一样的,如果poll()方法返回一大批数据,为了避免因再均衡引起的重复处理整批消息,可以在调用commitAsync()和commitSync()方法时传进去希望提交的分区和偏移量的map。