Apache Zeppelin是基于Web的笔记本,可进行交互式数据分析。 您可以使用Spark SQL,Scala,Hive,Flink,Kylin等制作漂亮的数据驱动,交互式和协作式文档。 Zeppelin通过简单易用的可视化功能,可以快速开发Spark和Hadoop工作流程。 Zeppelin中的代码可以在Zeppelin笔记本中使用,也可以编译并打包为完整的应用程序。
从当前的master分支(和发行候选版本)开始,所有MapR构建配置文件现在都包含在Apache Zeppelin存储库中 。 四个配置文件mapr3,mapr40,mapr41和mapr50将使用适当的MapR依赖项构建Zeppelin。
该博客提供了有关使用MapR配置文件进行构建的说明。 包括为MapR构建Hive解释器,但是在Hive pom.xml文件中注释了依赖性。
一些假设
- 在YARN下运行具有MapR 4.0.x / 5.x和Apache Spark(1.2.x,1.3.x或1.4.x)的集群
- 编辑几个文本文件的能力
- 不错的浏览器
- 在其上运行Zeppelin服务器的机器(节点或边缘)。 这需要安装mapr-spark和至少安装了MapR客户端
- Git客户端,npm和Maven 3.x
你需要做什么?
- 确保您的计算机上至少安装了MapR客户端和Spark。 通过执行
hadoop fs -ls /
和Spark Shell(例如1.2.1版)进行测试/opt/mapr/spark/spark-1.2.1/bin/spark-shell
- 找到一个不错的目录并运行
git clone
https://github.com/apache/incubator-zeppelin zeppelin
-
cd zeppelin
- 进行构建(MapR 4.0.x版):
mvn clean package -Pbuild-distr -Pmapr40 -Pyarn -Pspark-1.2 -DskipTests
(对于MapR 4.1版本):
mvn clean package -Pbuild-distr -Pmapr41 -Pyarn -Pspark-1.3 -DskipTests
(对于MapR 5.x版):
mvn clean package -Pbuild-distr -Pmapr50 -Pyarn -Pspark-1.3 -DskipTests
- 这将创建一个名为
zeppelin-distribution
的目录。 Zeppelin和tar文件将在此目录中运行。 tar文件是完整的Zeppelin安装。 用它。 - 在要执行Zeppelin服务器的位置解压
zeppelin-xxx-incubating-SNAPSHOT.tar.gz
。 一切都在该计算机本地,因此没有必要在MapR群集节点上安装Zeppelin服务器。 - 配置…假设您有正在运行的MapR客户端和Spark安装,则几乎不需要配置。 在
zeppelin-xxx-incubating-SNAPSHOT/conf
目录中,您需要将zeppelin-env.sh.template to zeppelin-env.sh
复制zeppelin-env.sh.template to zeppelin-env.sh
- 编辑
zeppelin-env.sh
…您需要导出两个项目。
一个。export HADOOP_CONF_DIR="/opt/mapr/hadoop/hadoop-x.x.x/etc/hadoop"
插入正确的Hadoop版本和路径)
b。export ZEPPELIN_JAVA_OPTS="-Dspark.executor.instances=4 -Dspark.executor.memory=2g"
Hadoop conf目录是yarn-site.xml所在的目录。 Zeppelin Java选项设置有关Spark部署的信息。 这些选项在此处的Spark文档中说明。
这应该是您在命令行中需要做的所有事情……。 启动Zeppelin服务器,执行
bin/zeppelin-daemon.sh start
现在,您需要配置Zeppelin以使用您的Spark集群。 将浏览器指向
http://:8080
单击解释器(页面顶部),然后编辑Spark部分:
- 主==纱线客户
- 救
如果正在使用HiveServer2,也可以在此页面上配置HiveServer2。 现在,单击“笔记本”(页面顶部),然后选择教程。
笔记
注意Zeppelin运行的端口号。
- 如果您在群集的节点上,则端口8080可能会与任意数量的Hadoop服务冲突。
- 在conf目录(步骤8和9)中,还有一个zeppelin-site.xml模板。 复制并编辑...。 端口号在顶部。
翻译自: https://www.javacodegeeks.com/2015/11/building-apache-zeppelin-mapr-using-spark-yarn.html