第六章 Kafka分布式发布订阅消息系统
6.4 Kafka生产者消费者实例
6.4.1 基于命令行方式使用Kafka
命令行操作是使用Kafka最基本的方式,也是便于初学者入门使用。要想建立生产者和消费者互相通信,就必须先创建一个“公共频道”, 它就是我们所说的主题(Topic), 在Kafka解压包的bin目录下, 有一个kafka-topics.sh文件,通过该文件就可以操作与主题组件相关的功能,由于前面我们配置了环境变量,所以可以在任何目录下访问bin目录下的所有文件。
6.4.1.1 创建主题
下面首先创建一个名为"itcasttopic"的主题, 命令如下所示。
kafka-topics.sh --create \
--topic itcasttopic \
--partitions 3 \
--replication-factor 2 \
--zookeeper hadoop01:2181, hadoop02:2181, hadoop03:2181
上述命令创建了一个名为"itcasttopic"的主题, 该主题的分区数为3,副本数为2。关于上述命令参数的说明如下:
–create:创建一个主题。
–topic:定义主题名称。
–partitions:定义分区数。
–replication-factor:定义副本数(replication-factor(topic副本)个数不能超过broker(服务器)的个数)。
–zookeeper:指定Zookeeper服务IP地址与端口号。
6.4.1.2 向主题中发送消息数据
主题创建成功后,就可以创建生产者生产消息,用来模拟生产环境中源源不断的消息,bin目 录中的kafka-console-producer.sh文件,可以使用生产者组件相关的功能,例如向主题中发送消息数据的功能,命令如下所示。
kafka-console-producer.sh \
--broker-list hadoop01:9092, hadoop02:9092 , hadoop03:9092 \
--topic itcasttepic
6.4.1.3 消费主题中的消息
当光标出现闪烁,表示在等待输入,这时,切换hadoop02终端,创建消费者消费消息,bin目录kafka-console- consumer.sh文件,可以使用消费者组件相关的功能,例如消费主题中的消息数据的功能,命令如下所示。
kafka-console-consumer.sh \
--from-beginning --topic itcasttopic \
--bootstrap-server hadoop01:9092,hadoop02:9092,hadoop03:9092
上述命令中,参数–from-beginning "表示要读取"itcasttopic"主题中的全部内容, 我们可以根据业务需求判断是否需要添加该参数。
6.4.1.4 查看所有的主题
Kafka常用命令行操作中还可以使用–list”参数可以查看所有的主题,具体指令如下(克隆一个hadoop01会话,测试下面的指令)。
kafka-topics.sh --list \
--zookeeper hadoop01:2181,hadoop02:2181,hadoop03:2181
6.4.1.5 删除当前主题
当想要删除当前主题时,只需要输入以下命令。
kafka-topics.sh --delete \
--zookeeper hadoop01:2181,hadoop02:2181,hadoop03:2181 \
--topic itcasttopic
再用list查看,如果还能看到,表示正在使用中的主题是不能被删除的。停掉后再执行删除即可。
6.4.2 基于Java API方式使用Kafka
用户不仅能够通过命令行的形式操作Kafka服务, Kafka还提供 了许多编程语言的客户端工具,用户在开发独立项目时,通过调用Kafka API来操作Kafka集群,其核心API主要有以下5种。
●Producer API: 构建应用種序发送数据流到Kafka集群中的主题。
●Consumer API:构建应用程序从Kafka集群中的主题读取数据流。
●Streams API: 构建流处理程序的库,能够处理流式数据。
●ConnectAPI: 实现连接器,用于在Kafka和其他系统之间可扩展的、可靠的流式传输数据的工具。
●AdminClientAPI: 构建集群管理工具, 查看Kafka集群组件信息。
在开发生产者客户端时,Producer API提供了KafkaProducer类,该类的实例化对象用来代表一个生产者进程, 生产者发送消息时,并不是直接发送给服务端,而是先在客户端中把消息存入队列中,然后由一个发送线程从队列中消费消息,并以批量的方式发送消息给服务端。
表6-2 KafkaProducer常用API
方法名称 | 相关说明 |
---|---|
abortTransaction() | 终止正在进行的事物 |
close() | 关闭这个生产者 |
flush() | 调用此方法使所有缓冲的记录立即发送 |
partitionsFor(java.lang.String topic) | 获取给定主题的分区元数据 |
send(ProducerRecord<K,V> record) | 异步发送记录到主题 |
生产者客户端用来向Kafka集群中发送消息,消费者客户端则是从Kafka集群中消费消息。作为分布式消息系统,Kafka支持多个生产者和多个消费者,生产者可以将消息发布到集群中不同节点的不同分区上,消费者也可以消费集群中多个节点的多个分区上的消息,消费者应用程序是由KafkaConsumer对象代表一个消费者客户端进程,KafkaConsumer类常用的方法如表所示。
表6-3 KafkaConsumer常用API
方法名称 | 相关说明 |
---|---|
subscribe(java.util.Collection<java.lang.String> topics) | 订阅给定主题列表以获取动态分区 |
close() | 关闭这个消费者 |
wakeup() | 唤醒消费者 |
metrics() | 获取消费者保留的指标 |
listTopics() | 获取有关用户有权查看的所有主题的分区的元数据 |
接下来,我们以实例演示的方式,分步骤介绍Kafka的Java API操作方式。
6.4.2.1 创建工程,添加依赖
创建一个名为“spark_ .chapter06"的Maven工程, 在pom.xml文件中添加Kafka依赖,需要注意的是,Kafka依赖需要与虚拟机安装的Kafka版本保持一致, 配置参数如下所示。
文件6-2 pom.xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns: