大数据-玩转数据-Spark Streaming Kafka数据流（python版）

最新推荐文章于 2022-01-17 18:46:22 发布

人猿宇宙

最新推荐文章于 2022-01-17 18:46:22 发布

阅读量770

点赞数 1

分类专栏：大数据-玩转数据-Spark 文章标签： kafka spark big data

本文链接：https://blog.csdn.net/s_unbo/article/details/122455523

版权

本文介绍了如何在大数据环境中使用Spark Streaming的Python版本与Kafka进行数据流处理。内容包括Spark与Kafka的集成配置，解决jar包版本不匹配问题，以及创建和消费Kafka topic的步骤。

摘要由CSDN通过智能技术生成

大数据-玩转数据-Spark Streaming Kafka数据流（python版）

一、Spark融合Kafka

[root@hadoop1 jars]# cd /home/hadoop/spark/jars
[root@hadoop1 jars]# mkdir kafka

根据原安装的spark及scala版本
下载 spark-streaming-kafka-0-8_2.11-2.4.0.jar*(该版本不适合，后面进行了更换，spark官网下载jar包地址：https://search.maven.org/search?q=g:org.apache.spark%20AND%20v:2.1.0) 到新建的kafka目录
拷贝kafka/libs下所有包到新建的kafka目录

[root@hadoop1 kafka]# cp /home/hadoop/kafka/libs/* /home/hadoop/spark/jars/kafka/

修改spark配置文件

[root@hadoop1 kafka]# cd /home/hadoop/spark/conf/
[root@hadoop1 conf]# vi spark-env.sh

看是否包含 spark 和 cafka 的jar包

export SPARK_DISK_CLASSPASS=$(/home/hadoop/apps/hadoop-2.10.1/bin/hadoop classpath):$(/home/hadoop/hbase/bin/hbase classpath):/home/hadoop/spark/jars/hbase/*:/home/hadoop