在YARN下使用Spark为MapR构建Apache Zeppelin

Apache Zeppelin是基于Web的笔记本,可进行交互式数据分析。 您可以使用Spark SQL,Scala,Hive,Flink,Kylin等制作漂亮的数据驱动,交互式和协作式文档。 Zeppelin通过简单易用的可视化功能,可以快速开发Spark和Hadoop工作流程。 Zeppelin中的代码可以在Zeppelin笔记本中使用,也可以编译并打包为完整的应用程序。

Zeppeline-Blog-Img1

从当前的master分支(和发行候选版本)开始,所有MapR构建配置文件现在都包含在Apache Zeppelin存储库中 。 四个配置文件mapr3,mapr40,mapr41和mapr50将使用适当的MapR依赖项构建Zeppelin。

该博客提供了有关使用MapR配置文件进行构建的说明。 包括为MapR构建Hive解释器,但是在Hive pom.xml文件中注释了依赖性。

一些假设

  1. 在YARN下运行具有MapR 4.0.x / 5.x和Apache Spark(1.2.x,1.3.x或1.4.x)的集群
  2. 编辑几个文本文件的能力
  3. 不错的浏览器
  4. 在其上运行Zeppelin服务器的机器(节点或边缘)。 这需要安装mapr-spark和至少安装了MapR客户端
  5. Git客户端,npm和Maven 3.x

你需要做什么?

  1. 确保您的计算机上至少安装了MapR客户端和Spark。 通过执行hadoop fs -ls /和Spark Shell(例如1.2.1版)进行测试
    /opt/mapr/spark/spark-1.2.1/bin/spark-shell
  2. 找到一个不错的目录并运行git clone
    https://github.com/apache/incubator-zeppelin zeppelin
  3. cd zeppelin
  4. 进行构建(MapR 4.0.x版):
    mvn clean package -Pbuild-distr -Pmapr40 -Pyarn -Pspark-1.2 -DskipTests

    (对于MapR 4.1版本):

    mvn clean package -Pbuild-distr -Pmapr41 -Pyarn -Pspark-1.3 -DskipTests

    (对于MapR 5.x版):

    mvn clean package -Pbuild-distr -Pmapr50 -Pyarn -Pspark-1.3 -DskipTests
  5. 这将创建一个名为zeppelin-distribution的目录。 Zeppelin和tar文件将在此目录中运行。 tar文件是完整的Zeppelin安装。 用它。
  6. 在要执行Zeppelin服务器的位置解压zeppelin-xxx-incubating-SNAPSHOT.tar.gz 。 一切都在该计算机本地,因此没有必要在MapR群集节点上安装Zeppelin服务器。
  7. 配置…假设您有正在运行的MapR客户端和Spark安装,则几乎不需要配置。 在zeppelin-xxx-incubating-SNAPSHOT/conf目录中,您需要将zeppelin-env.sh.template to zeppelin-env.sh复制zeppelin-env.sh.template to zeppelin-env.sh
  8. 编辑zeppelin-env.sh …您需要导出两个项目。
    一个。
    export 
    HADOOP_CONF_DIR="/opt/mapr/hadoop/hadoop-x.x.x/etc/hadoop"

    插入正确的Hadoop版本和路径)
    b。

    export ZEPPELIN_JAVA_OPTS="-Dspark.executor.instances=4 -Dspark.executor.memory=2g"

    Hadoop conf目录是yarn-site.xml所在的目录。 Zeppelin Java选项设置有关Spark部署的信息。 这些选项在此处的Spark文档中说明。

这应该是您在命令行中需要做的所有事情……。 启动Zeppelin服务器,执行

bin/zeppelin-daemon.sh start

现在,您需要配置Zeppelin以使用您的Spark集群。 将浏览器指向

http://:8080

单击解释器(页面顶部),然后编辑Spark部分:

  • 主==纱线客户

如果正在使用HiveServer2,也可以在此页面上配置HiveServer2。 现在,单击“笔记本”(页面顶部),然后选择教程。

笔记

注意Zeppelin运行的端口号。

  • 如果您在群集的节点上,则端口8080可能会与任意数量的Hadoop服务冲突。
  • 在conf目录(步骤8和9)中,还有一个zeppelin-site.xml模板。 复制并编辑...。 端口号在顶部。

翻译自: https://www.javacodegeeks.com/2015/11/building-apache-zeppelin-mapr-using-spark-yarn.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值