消息中间件-kafka实战-第一章-介绍

消息中间件需要满足的功能

基本需求

  • 实现消息的发送和接收、NIO通信(序列化/反序列化)
  • 实现消息存储的需求(持久化、非持久化)
  • 是否支持跨语言
  • 消息的确认(确认机制)
  • 是否支持集群

高级需求

  • 消息是否支持有序
  • 是否支持事务消息
  • 是否能够支持高并发和大数据的存储
  • 是否支持可靠性存储
  • 是否支持多协议
  • 是否收费

kafka概述

Kafka传统定义:Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。

发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息。
Kafka最新定义:Kafka是一个开源的分布式事件流平台(Event Streaming Platform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。

官网:https://kafka.apache.org/

应用场景

应用场景-缓存消峰

在这里插入图片描述

应用场景-解耦

在这里插入图片描述

应用场景-异步通信

在这里插入图片描述

消费模式

点对点模式和发布/订阅模式

在这里插入图片描述
参考:Kafka 单播、多播和消费组

单播消息

**在一个kafka的topic分区中,在同一个消费组中启动多个消费者,那么同一消费组中只有一个消费者可以收到订阅的topic中的消息,也就是说同一个消费组中只能有一个消费者能消费该partition的消息。**

$ bin/kafka-console-consumer.sh --bootstrap-server 10.20.30.40:9092 --consumer-property group.id=group1 --topic hello

多播消息

**不同的消费组订阅同一个partition中,消费组之间互不影响,那么每个消费组都能消费消息,如下在不同消费组中启动的两个消费客户端都可以收到消息topic的消息(这里的topic只有一个partition)。 **

$ bin/kafka-console-consumer.sh --bootstrap-server 10.20.30.40:9092 --consumer-property group.id=group1 --topic hello
 
$ bin/kafka-console-consumer.sh --bootstrap-server 10.20.30.40:9092 --consumer-property group.id=group2 --topic hello

下图就是描述单播和多播的区别:

**总结:**
1.一个partition只能被同一消费组中的一个消费者消费,是为了保证消息的顺序性
2.partition数量决定了同一消费组中消费者的数量,建议设置消费组中的消费者数量不要超过partition的数量
3.partition个数决定kafka 中topic 的并行度,所以想要提高topic的消费能力,应该增大partition数

基础架构

在这里插入图片描述
同一个topic有三个pardition,然后被两个消费者组消费
在这里插入图片描述

偏移量offset提交方式

参考

Kafka提交偏移量的五种方式

自动提交偏移量

最简单的方式是让消费者自动提交偏移量。如果enable.auto.commit被设为true,那么每过5s,消费者会自动把从poll()方法接收到的最大偏移量提交上去。提交时间间隔由auto.commit.interval.ms控制,默认值是5s。自动提交也是在轮询里进行的,消费者每次在进行轮询时会检查是否该提交偏移量了,如果是,那么就会提交从上一次轮询返回的偏移量。

在使用自动提交时,每次调用轮询方法都会把上一次调用返回的偏移量提交上去,它并不知道具体哪些消息已经被处理了,所以再次调用之前最好确保所有当前调用返回的消息都已经处理完毕(在调用close()方法之前也会进行自动提交)。

**缺点:**由此我们知道自动提交的方式是有弊端的,如果你是同步处理数据,再均衡时很容易发生消息重复,如果你是异步处理数据,则易发生数据丢失,这都是我们不想看到的。

手动提交当前偏移量

开发者可以在必要的时候提交当前偏移量,而不是基于时间间隔。

把enable.auto.commit设为false,让应用程序决定何时提交偏移量。使用commitSync()提交偏移量最简单最可靠。这个API会提交由poll()方法返回的最新偏移量,提交成功后马上返回,如果提交失败就抛出异常。在处理完所有记录后要确保调用了commitSync(),否则还是会有丢失消息的风险。如果发生了再均衡,从最近一批消息到发生再均衡之间的所有消息都将被重复处理。

异步提交当前偏移量

手动提交由一个不足之处,在broker对提交请求作出回应之前,应用程序会一直阻塞,这样会限制应用程序的吞吐量。此时可以使用异步提交API,无需等待broker的相应

Consumer.commitAsync();

异步的缺点:提交失败之后不会进行重试,因为在收到服务器相应的时候,可能有一个更大的偏移量已经提交成功。可以使用异步提交的回调记录下错误信息和偏移量。

同步和异步组合提交

如果一切正常,使用commitAsync()方法来提交。这样速度更快,而且即使这次提交失败,下一次提交很可能会成功。

如果直接关闭消费者,就没有所谓的下一次提交了。在异常处理后使用commitSync()提交。

提交特定的偏移量

上述几种方式的提交偏移量的频率与处理消息批次的频率是一样的,如果poll()方法返回一大批数据,为了避免因再均衡引起的重复处理整批消息,可以在调用commitAsync()和commitSync()方法时传进去希望提交的分区和偏移量的map。

扩展工具

监控工具kafka-eagle

kafkaUI

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Kafka 是一个高性能、分布式的消息队列,常用于处理大量的实时数据。Python-Kafka 是 Python 语言的 Kafka 客户端库,提供了丰富的 API 接口,可以方便地对 Kafka 进行操作。下面是一个 Python-Kafka实战案例: 1. 安装 Python-Kafka 库 使用 pip 安装 Python-Kafka 库: ``` pip install kafka-python ``` 2. 创建 Kafka 生产者 使用 Python-Kafka 库创建 Kafka 生产者,代码如下: ```python from kafka import KafkaProducer producer = KafkaProducer(bootstrap_servers=['localhost:9092']) for i in range(10): producer.send('test', b'message {}'.format(i)) producer.close() ``` 上述代码创建了一个 Kafka 生产者,并向名称为“test”的主题发送了 10 条消息。 3. 创建 Kafka 消费者 使用 Python-Kafka 库创建 Kafka 消费者,代码如下: ```python from kafka import KafkaConsumer consumer = KafkaConsumer('test', bootstrap_servers=['localhost:9092']) for msg in consumer: print(msg) consumer.close() ``` 上述代码创建了一个 Kafka 消费者,并订阅了名称为“test”的主题。当 Kafka 生产者向该主题发送消息时,消费者将接收到消息并打印出来。 4. 手动提交消费偏移量 默认情况下,Kafka 消费者会自动提交消费偏移量,但在某些情况下需要手动提交。例如,在消费者处理消息之前需要进行一些预处理或验证操作时,可以先手动提交偏移量,再进行处理。代码如下: ```python from kafka import KafkaConsumer consumer = KafkaConsumer('test', bootstrap_servers=['localhost:9092'], enable_auto_commit=False) for msg in consumer: print(msg) consumer.commit() consumer.close() ``` 上述代码创建了一个 Kafka 消费者,并禁用了自动提交消费偏移量的功能。在每次处理完消息后,需要手动提交偏移量。 5. 多线程消费 在实际应用中,可能需要启用多个消费者线程来提高消息处理效率。可以使用 Python 的 threading 模块创建多个线程,每个线程创建一个 Kafka 消费者来消费消息。代码如下: ```python from kafka import KafkaConsumer import threading def consume(): consumer = KafkaConsumer('test', bootstrap_servers=['localhost:9092']) for msg in consumer: print(msg) consumer.close() threads = [] for i in range(4): t = threading.Thread(target=consume) threads.append(t) t.start() for t in threads: t.join() ``` 上述代码创建了 4 个消费者线程,每个线程创建一个 Kafka 消费者并消费消息。这样可以提高消息处理效率。 以上就是一个简单的 Python-Kafka 实战案例,通过该案例可以了解如何使用 Python-Kafka 库创建 Kafka 生产者和消费者,以及如何手动提交消费偏移量和使用多线程消费。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值