Spark+Kafka构建实时分析Dashboard案例

Spark+Kafka构建实时分析Dashboard案例——步骤一:实验环境准备

大数据技术原理与应用

《Spark+Kafka构建实时分析Dashboard案例——步骤一:实验环境准备》
开发团队:厦门大学数据库实验室 联系人:林子雨老师 ziyulin@xmu.edu.cn

版权声明:版权归厦门大学数据库实验室所有,请勿用于商业用途;未经授权,其他网站请勿转载

本教程介绍大数据课程实验案例“Spark+Kafka构建实时分析Dashboard案例”的第一个步骤,实验环境准备工作,有些软件的安装在相应的章节还会介绍。

预备知识

Linux系统命令使用、了解如何安装Python库。

训练技能

熟悉Linux基本操作、Pycharm的安装、Spark安装,Kafka安装,PyCharm安装。

任务清单

  1. Spark安装
  2. Kafka安装
  3. Python安装
  4. Python依赖库
  5. PyCharm安装

实验系统和软件要求

Ubuntu: 16.04
Spark: 2.1.0
Scala: 2.11.8
kafka: 0.8.2.2
Python: 3.x(3.0以上版本)
Flask: 0.12.1
Flask-SocketIO: 2.8.6
kafka-python: 1.3.3

系统和软件的安装

Spark安装

Spark的安装可以参考Spark系列教程,地址为Spark2.1.0入门:Spark的安装和使用

Kafka安装

kafka的安装可以参考博客Kafka的安装和简单实例测试

Python安装

Ubuntu16.04系统自带Python2.7和Python3.5,本案例直接使用Ubuntu16.04自带Python3.5;

Python依赖库

本案例主要使用了两个Python库,Flask和Flask-SocketIO,这两个库安装非常简单,如下:

   
   
  1. pip3 install flask
  2. pip3 install flask-socketio
  3. pip3 install kafka-python
Shell
PyCharm安装

Pycharm是一款Python开发IDE,可以极大方便工程管理以及程序开发。前往PyCharm官网下载免费的Community版本,然后执行如下命令

tar -zxvf ~/下载/pycharm-community-2016.3.2.tar.gz
mv ~/下载/pycharm-community-2016.3.2 ~/pycharm
cd ~/pycharm
./bin/pycharm.sh

执行上述命令之后,即可开启Pycharm。

Python工程目录结构

这里先给出本案例Python工程的目录结构,后续的操作可以根据这个目录进行操作。

Python工程目录结构Python工程目录结构

  1. data目录存放的是用户日志数据;
  2. scripts目录存放的是Kafka生产者和消费者;
  3. static/js目录存放的是前端所需要的js框架;
  4. templates目录存放的是html页面;
  5. app.py为web服务器,接收Spark Streaming处理后的结果,并推送实时数据给浏览器;
  6. External Libraries是本项目所依赖的Python库,是PyCharm自动生成。

至此,本案例需要的开发环境就介绍完毕,顺带说一句,Spark自带Scala,因此如果是开发Spark应用程序,则没必要单独安装Scala。

下篇文章链接为Spark+Kafka构建实时分析Dashboard案例——步骤二:数据处理和Python操作Kafka

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值