大数据-玩转数据-Spark Streaming Kafka数据流(python版)
一、Spark融合Kafka
[root@hadoop1 jars]# cd /home/hadoop/spark/jars
[root@hadoop1 jars]# mkdir kafka
根据原安装的spark及scala版本
下载 spark-streaming-kafka-0-8_2.11-2.4.0.jar*(该版本不适合,后面进行了更换,spark官网下载jar包地址:https://search.maven.org/search?q=g:org.apache.spark%20AND%20v:2.1.0) 到 新建的kafka目录
拷贝kafka/libs下所有包到新建的kafka目录
[root@hadoop1 kafka]# cp /home/hadoop/kafka/libs/* /home/hadoop/spark/jars/kafka/
修改spark配置文件
[root@hadoop1 kafka]# cd /home/hadoop/spark/conf/
[root@hadoop1 conf]# vi spark-env.sh
看是否包含 spark 和 cafka 的jar包
export SPARK_DISK_CLASSPASS=$(/home/hadoop/apps/hadoop-2.10.1/bin/hadoop classpath):$(/home/hadoop/hbase/bin/hbase classpath):/home/hadoop/spark/jars/hbase/*:/home/hadoop