1 Zeppelin 介绍
基于 Web网页 进行 交互式的数据分析 的笔记本,有数据可视化功能。
支持多种语言,比如SQL,Scala等等
zeppelin —> 相当于一个paltform:可插拔式的安装各个环境、组件进行数据分析
2 zeppelin主要模块:
2.1.zeppelin-server:
项目入口,通过Jetty 【web 服务器】内嵌的服务 提供的WebSocket和Restful服务
提供了基本的权限认证,用Java编写的
2.2.zeppelin-zengine:
实现NoteBook的持久化和检索服务
2.3.zeppelin-interpreter:
抽象的interpreter接口,规定了解释器的功能
并且跟 zeppelin-zengine 通过Thrift 进行通信
open 初始化只会调用一次
close 关闭资源释放接口,只会用一次
interpert 执行代码返回结果,同步的方式
2.4.zeppelin-web:使用AnguarJs【前端技术】
操作流程:
zeppelin-web —> zeppelin-server/shiro —> zeppelin-zengine —> zeppelin-interpreter
服务是可插拔的 module/addon
3 zeppelin安装
安装方式两种:
1.源码编译
2.下载编译好的二进制文件 √
http://zeppelin.apache.org/docs/0.8.2/quickstart/install.html#building-zeppelin-from-source
编译流程总结:
前置准备:
安装Maven
安装JDK
安装npm 即 nodeJs
编译:版本0.8.2
// spark2.4.3 hadoop 2.6.0-cdh5.7.0
开始:
[root@hadoop001 zeppelin]# pwd
/root/softs/zeppelin
[root@hadoop001 zeppelin]# ./dev/change_scala_version.sh 2.11
接着:
mvn clean package \
-Pspark-2.4.3 \
-Phadoop-2.6 \
-Dhadoop.version=2.6.0-cdh5.7.0 \
-Pyarn \
-Pvendor-repo \
-DskipTests
推荐 升级版:
mvn clean package \
-Pspark-2.4 \
-Dspark.version=2.4.3 \
-Ppyspark \
-Phadoop-2.6 \
-Dhadoop.version=2.6.0-cdh5.7.0 \
-Pscala-2.