在YARN下使用Spark为MapR构建Apache Zeppelin

最新推荐文章于 2024-01-15 15:57:25 发布

danpu0978

最新推荐文章于 2024-01-15 15:57:25 发布

阅读量131

点赞数

文章标签：大数据 java hadoop linux nginx

Apache Zeppelin是基于Web的笔记本，可进行交互式数据分析。您可以使用Spark SQL，Scala，Hive，Flink，Kylin等制作漂亮的数据驱动，交互式和协作式文档。 Zeppelin通过简单易用的可视化功能，可以快速开发Spark和Hadoop工作流程。 Zeppelin中的代码可以在Zeppelin笔记本中使用，也可以编译并打包为完整的应用程序。

从当前的master分支（和发行候选版本）开始，所有MapR构建配置文件现在都包含在Apache Zeppelin存储库中。四个配置文件mapr3，mapr40，mapr41和mapr50将使用适当的MapR依赖项构建Zeppelin。

该博客提供了有关使用MapR配置文件进行构建的说明。包括为MapR构建Hive解释器，但是在Hive pom.xml文件中注释了依赖性。

一些假设

在YARN下运行具有MapR 4.0.x / 5.x和Apache Spark（1.2.x，1.3.x或1.4.x）的集群
编辑几个文本文件的能力
不错的浏览器
在其上运行Zeppelin服务器的机器（节点或边缘）。这需要安装mapr-spark和至少安装了MapR客户端
Git客户端，npm和Maven 3.x

你需要做什么？

确保您的计算机上至少安装了MapR客户端和Spark。通过执行hadoop fs -ls /和Spark Shell（例如1.2.1版）进行测试
```
/opt/mapr/spark/spark-1.2.1/bin/spark-shell
```

找到一个不错的目录并运行git clone

https://github.com/apache/incubator-zeppelin zeppelin

cd zeppelin

进行构建（MapR 4.0.x版）：

mvn clean package -Pbuild-distr -Pmapr40 -Pyarn -Pspark-1.2 -DskipTests

（对于MapR 4.1版本）：

mvn clean package -Pbuild-distr -Pmapr41 -Pyarn -Pspark-1.3 -DskipTests

（对于MapR 5.x版）：

mvn clean package -Pbuild-distr -Pmapr50 -Pyarn -Pspark-1.3 -DskipTests

这将创建一个名为zeppelin-distribution的目录。 Zeppelin和tar文件将在此目录中运行。 tar文件是完整的Zeppelin安装。用它。
在要执行Zeppelin服务器的位置解压zeppelin-xxx-incubating-SNAPSHOT.tar.gz 。一切都在该计算机本地，因此没有必要在MapR群集节点上安装Zeppelin服务器。
配置…假设您有正在运行的MapR客户端和Spark安装，则几乎不需要配置。在zeppelin-xxx-incubating-SNAPSHOT/conf目录中，您需要将zeppelin-env.sh.template to zeppelin-env.sh复制zeppelin-env.sh.template to zeppelin-env.sh
编辑zeppelin-env.sh …您需要导出两个项目。
一个。
```
export 
HADOOP_CONF_DIR="/opt/mapr/hadoop/hadoop-x.x.x/etc/hadoop"
```
插入正确的Hadoop版本和路径）
b。
```
export ZEPPELIN_JAVA_OPTS="-Dspark.executor.instances=4 -Dspark.executor.memory=2g"
```
Hadoop conf目录是yarn-site.xml所在的目录。 Zeppelin Java选项设置有关Spark部署的信息。这些选项在此处的Spark文档中说明。

这应该是您在命令行中需要做的所有事情……。启动Zeppelin服务器，执行

bin/zeppelin-daemon.sh start

现在，您需要配置Zeppelin以使用您的Spark集群。将浏览器指向

http://:8080

单击解释器（页面顶部），然后编辑Spark部分：

主==纱线客户
救

如果正在使用HiveServer2，也可以在此页面上配置HiveServer2。现在，单击“笔记本”（页面顶部），然后选择教程。

笔记

注意Zeppelin运行的端口号。

如果您在群集的节点上，则端口8080可能会与任意数量的Hadoop服务冲突。
在conf目录（步骤8和9）中，还有一个zeppelin-site.xml模板。复制并编辑...。端口号在顶部。

翻译自: https://www.javacodegeeks.com/2015/11/building-apache-zeppelin-mapr-using-spark-yarn.html

danpu0978

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
在YARN下使用Spark为MapR构建Apache Zeppelin

Apache Zeppelin是基于Web的笔记本，可进行交互式数据分析。您可以使用Spark SQL，Scala，Hive，Flink，Kylin等制作漂亮的数据驱动，交互式和协作式文档。 Zeppelin通过简单易用的可视化功能，可以快速开发Spark和Hadoop工作流程。 Zeppelin中的代码可以在Zeppelin笔记本中使用，也可以编译并打包为完整的应用程序。从当前的...
复制链接

扫一扫