*Spark+Kafka构建实时分析*
*Dashboard 项目*
*一:实验环境准备*
*预备知识*
Linux系统命令使用、了解如何安装Python库、安装kafka。
*训练技能*
熟悉Linux基本操作、Pycharm的安装、Spark安装,Kafka安装,PyCharm安装。
*任务清单*
\1. Spark安装(略)
\2. Kafka安装
\3. Python安装(略)
\4. Python依赖库
\5. PyCharm安装(略)
一、系统和软件的安装
一、项目环境搭建。
(一)、spark搭建
我之前已搭建完成,在终端打开如下
pyspark
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2Ui4UJVc-1620658414735)(file:///C:\Users\xyyth\AppData\Local\Temp\ksohtml2128\wps1.jpg)]
(二)数据转移到Ubuntu
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LuKTadav-1620658414736)(file:///C:\Users\xyyth\AppData\Local\Temp\ksohtml2128\wps3.jpg)]
(三)、kafka环境搭建
把下载的kafka安装包解压到自己的目标文件夹下面,然后在如下操作:
`****切换到kafka的目录下****
****bin/zookeeper-server-start.sh /home/thc/spark/kafka_2.11-2.4.0/config/zookeeper.properties****`
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PI6w29jX-1620658414739)(file:///C:\Users\xyyth\AppData\Local\Temp\ksohtml2128\wps4.jpg)]
*****启动kafka*
重新打卡一个新的终端,切换到kafka的目录下
***\*bin/kafka-server-start.sh config/server.properties\****
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Cr6G1kRT-1620658414740)(file:///C:\Users\xyyth\AppData\Local\Temp\ksohtml2128\wps5.jpg)]
*以单节点的配置创建了一个叫dblab的topic.可以用list列出所有创建的topics,来查看刚才创建的主题是否存在。********也是重新打开终端。*
bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic dblab
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9AtQJA5g-1620658414742)(file:///C:\Users\xyyth\AppData\Local\Temp\ksohtml2128\wps6.jpg)]
在结果中查看到dblab这个topic存在
bin/kafka-topics.sh --list --zookeeper localhost:2181
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k6ObQGkY-1620658414742)(file:///C:\Users\xyyth\AppData\Local\Temp\ksohtml2128\wps7.jpg)]
用producer生产点数据
bin/kafka-console-producer.sh --broker-list localhost:9092 --topic dblab
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RMQGcwWf-1620658414743)(file:///C:\Users\xyyth\AppData\Local\Temp\ksohtml2128\wps8.jpg)]
使用consumer来接收数据,重新打开新终端接受数据
bin/kafka-console-consumer.sh --bootstrap-serv