kafka jar包_通过Spark Streaming作业处理Kafka数据

weixin_39962758

于 2020-11-26 08:58:09 发布

阅读量155

点赞数

文章标签： kafka jar包 kafka创建topic kafka创建topic命令 kafka命令 kafka查看topic中的数据

本节介绍如何使用阿里云E-MapReduce部署Hadoop集群和Kafka集群，并运行Spark Streaming作业消费Kafka数据。

在开发过程中，通常会遇到消费Kafka数据的场景。在阿里云E-MapReduce中，您可通过运行Spark Streaming作业来消费Kafka数据。

推荐您将Hadoop集群和Kafka集群创建在同一个安全组下。如果Hadoop集群和Kafka集群不在同一个安全组下，则两者的网络默认是不互通的，您需要对两者的安全组分别进行相关配置，以使两者的网络互通。

本例中的JAR包：对E-MapReduce的Demo进行了一定的修改后，编译生成的JAR包。JAR包需要上传到Hadoop集群的emr-header-1主机中。

说明: 后续步骤中的代码有涉及到此路径，本例上传路径为/home/hadoop。上传JAR包，请保留该登录窗口，后续步骤仍将使用。

您可直接在E-MapReduce上以可视化的方式来创建Topic(详情请参见Kafka 元数据管理)，也可登录Kafka集群的emr-header-1主机后以命令行的方式来创建Topic。本例以命令行方式创建一个分区数为10、副本数为2、名称为test的Topic。

/usr/lib/kafka-current/bin/kafka-topics.sh --partitions 10 --replication-factor 2 --zookeeper emr-header-1:2181 /kafka-1.0.0 --topic test --create

说明 :创建Topic后，请保留该登录窗口，后续步骤仍将使用。

完成上述操作后，您即可在Hadoop集群上运行Spark Streaming作业。本例将运行一个作业进行流式单词统计(WordCount)。

返回到Hadoop集群的emr-header-1主机登录窗口。
如果误关闭了此窗口，请重新登录，详情请参见步骤二获取JAR包并上传到Hadoop集群中的相关步骤。
通过如下作业命令来进行流式单词统计(WordCount)。

spark-submit --class com.aliyun.emr.example.spark.streaming.KafkaSample  /home/hadoop/examples-1.2.0-shaded-2.jar 192.168.xxx.xxx:9092 test 5

命令中JAR包后面的三个关键参数说明如下：

图 1. Kafka集群组件

进行本步骤操作时，需要保持Spark Streaming作业一直处于运行状态。运行Kafka的生产者(producer)后，在Kafka客户端的命令行中输入文本时，在Hadoop集群客户端的命令行中会实时显示单词统计结果。

/usr/lib/kafka-current/ /bin/kafka-console-producer.sh --topic test --broker-list emr-worker-1:9092

Spark Streaming作业开始运行后，您可在E-MapReduce上查看作业的状态。

返回到阿里云 E-MapReduce 控制台。
在Hadoop集群的访问链接与端口页面中，单击Spark History Server UI后的链接，查看Spark Streaming作业的状态。详情请参见访问链接与端口

作者：开源大数据

weixin_39962758

关注