Zeppelin的求学之路(1)—— 简介 和 从源码Build的安装并配置他的Spark解析器

Zeppelin

 

Zeppelin的简介

    

     上面的截图就是官网对zeppelin的介绍,简洁明了——基于web端的notebook可以实现数据驱动,交互式数据分析,支持多种数据处理引擎,比如SQL,Scala,Spark,Hive等。当然我理解的Zeppelin就是整合了多种编程语言,比如Java,Scala,SQL,Python等,支持多种数据处理引擎进行数据处理分析,并且实现WEB可视化的一个工具,即将数据处理分析的多路英雄好汉汇集在一起!

Zeppelin的安装:

    我安装的是最新版本0.73版的zeppelin,但是安装之前,你一定要明确你的环境,它要求java jdk1.7以上,window7以上具体看下面的截图吧。

                                       

    Zeppelin有两种安装方式:

           1:直接下载他的二进制安装包,官方提供了二种安装包,一种含有all interpreters;另一种net-install interpreters,对于我们这样的新手小白,当然推荐第一种。具体的傻瓜式tar命令解压安装就不扯了,

并且附上各种版本下载传送门,小伙伴自己对照要求自己挑新娘:

命令行duceker命令下载:http://zeppelin.apache.org/download.html

一键点击下载:http://www.apache.org/dyn/closer.cgi/zeppelin/zeppelin-0.7.3/zeppelin-0.7.3-bin-all.tgz

           2:自己根据集群不同的interpreters版本,Building from  Source,因为我集群Hadoop2.5的,和最新版的Zeppelin 存在这版本不兼容问题,所以我采取了第二种build方式。大家可以对照一下自己可不可以安装0.73版本的。但是该有的硬性环境要求还是该有的,请看⬇️

 

NameValue
Git(Any Version)
Maven3.1.x or higher
JDK1.7

 

 

 

-Pspark-2.1
-Pspark-2.0
-Pspark-1.6
-Pspark-1.5
-Pspark-1.4
-Pcassandra-spark-1.5
-Pcassandra-spark-1.4
-Pcassandra-spark-1.3
-Pcassandra-spark-1.2
-Pcassandra-spark-1.1
-Phadoop-0.23
-Phadoop-1
-Phadoop-2.2
-Phadoop-2.3
-Phadoop-2.4
-Phadoop-2.6
-Phadoop-2.7
-Pscala-2.10
-Pscala-2.11

Building from Souce:

       在build之前,先对下面要用到的命令做个简单的介绍。

    (1)git :Git是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。想更具体了解git命令和介绍的请点击下面的传送门

git教程传送门:https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000/001373962845513aefd77a99f4145f0a2c7a7ca057e7570000

git下载传送门:https://git-scm.com/downloads

 

    (2)mvn:Maven是现在Java社区中最强大的项目管理和项目构建工具

maven教程传送门:https://www.cnblogs.com/jingmoxukong/p/5591368.html

maven下载传送门:http://maven.apache.org/download.cgi

Step1: 解决你自己的环境问题,1: install requirement     2:install maven

1:install requirement

 

sudo apt-get update
sudo apt-get install git
sudo apt-get install openjdk-7-jdk //如果你的jdk版本比这个高可以忽略这一条命令
sudo apt-get install npm
sudo apt-get install libfontconfig

2:install maven

 

wget http://www.eu.apache.org/dist/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz
sudo tar -zxf apache-maven-3.3.9-bin.tar.gz -C /usr/local/
sudo ln -s /usr/local/apache-maven-3.3.9/bin/mvn /usr/local/bin/mvn

 

Step2:利用git clone命令 克隆zeppelin仓库到你的机子上

 

git clone https://github.com/apache/zeppelin.git   首先看完git教程的你,要建立一个自己的本地git仓库,然后cd到仓库内进行命令操作

 

Step3: Build Source

 

mvn clean package -DskipTests [Options]      利用mvn下载各种解析器的包,【options】可以换成各种解析器版本

 

 

 

# update all pom.xml to use scala 2.11
./dev/change_scala_version.sh 2.11          不要忘了敲这条命令,我开始没注意,各种失败,各种坑
# build zeppelin with all interpreters and include latest version of Apache spark support for local mode.
mvn clean package -DskipTests -Pspark-2.0 -Phadoop-2.4 -Pyarn -Ppyspark -Psparkr -Pr -Pscala-2.11 
具体你需要哪种解释器版本可以有选择的修改和删减,可以参考上面发的大版本选择。

 

当然你也可以选择更详细版本的解析器比如:

 

mvn clean package -Pspark-1.5 -Dhadoop.version=2.6.0-cdh5.5.0 -Phadoop-2.6 -Pvendor-repo -DskipTests

 

Step4(可选): 如果你需要将它build 成一个distribution包的话,然后将这个快照压缩包上传到你的无外网集群上可以选择下面这个命令。

 

 

mvn clean package -Pbuild-distr -Pspark-1.5 -Phadoop-2.4 -Pyarn -Ppyspark

比如我的:注意

                   蓝色关键字命令 与 Step3 不Build  成 distribution的区别

                   DskipTests 命令是跳过build中间的  繁琐的test环节

              

 

mvn clean package -DskipTests -Pbuild-distr -Pspark-2.1 -Phadoop-2.4 -Pyarn -Pscala-2.11

Step5:开启本地的单机版的zeppelin

    build成功或者安装成功之后,cd  到bin目录,就可以用下面的命令启动它的脚本了。登陆到web: localhost:8080 你就可以尝试它的功能,请看下图!

./bin/zeppelin-daemon.sh start ;//启动
 
./bin/zeppelin-daemon.sh stop; //停止
 
 
./bin/zeppelin-daemon.sh status;//查看状态

  坑:zeppelin默认的启动端口是8080,如果你的这个端口被占用了,需要进入conf目录下,

将 zeppelin-site.xml.template 修改为 zeppelin-site.xml(可以修改端口等基本配置信息)

修改 zeppelin-site.xml中的 zeppelin.server.port 端口改成8089

将zeppelin-env.sh.template 修改为zeppelin-env.sh ,并且配上JAVA_HOME,SPARK_HOME 等相关配置。

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
<h3>回答1:</h3><br/>Zeppelin是一个开源的数据分析和可视化工具,可以连接多种数据源,包括Spark。要连接Spark,需要进行以下配置和使用步骤: 1. 在Zeppelin的主页上,点击“Create new note”创建一个新的笔记本。 2. 在笔记本中,点击“Interpreter binding”按钮,选择“spark”作为解释器。 3. 在“Interpreter setting”页面中,配置Spark的相关参数,包括Spark的主机名、端口号、应用名称等。 4. 点击“Save”保存配置,然后点击“Run”运行解释器。 5. 在笔记本中输入Spark的代码,例如: ``` val data = Seq(1, 2, 3, 4, 5) val rdd = sc.parallelize(data) rdd.collect() ``` 6. 点击“Run”运行代码,可以看到Spark的输出结果。 通过以上步骤,就可以在Zeppelin中连接和使用Spark了。需要注意的是,Zeppelin的版本和Spark的版本需要匹配,否则可能会出现兼容性问题。 <h3>回答2:</h3><br/>Zeppelin是一种使用方便的笔记本工具,它可以支持多语言,包括Scala、Python等,而且对于连接Spark来说非常友好。在ZeppelinSpark之间,有两个连接选项可以使用:使用本地模式连接或者使用远程模式连接。本地模式连接意味着ZeppelinSpark运行在同一台机器上,而远程模式连接意味着ZeppelinSpark运行在不同的机器上。 下面是使用Zeppelin连接Spark的步骤: 1. 首先,在Zeppelin中创建一个新的笔记本。 2. 接着,创建一个新的Spark interpreter。在Zeppelin首页的设置菜单中选择“Interpreter”,然后选择“Create”按钮。在弹出的界面中,填写相关信息(interpreter名称、Spark master URL等)后,选择“保存”按钮。 3. 启动interpreter。在Zeppelin中选择“Notebook”按钮,然后选择“Interpreters”按钮,接着在“Spark Interpreter”下面选择“start”按钮即可启动interpreter。 4. 配置Spark连接。如果使用本地模式连接,那么不需要其他操作。如果使用远程模式连接,需要在Zeppelin配置文件中添加Spark的master URL。在Zeppelin安装目录下找到conf目录中的zeppelin-site.xml文件,接着在其中添加: <property> <name>spark.master</name> <value>spark://your-spark-master-url:7077</value> </property> 上面的your-spark-master-url应该替换为实际的Spark master URL。 5. 测试Spark连接。在Zeppelin的笔记本中输入Spark相关的代码,例如: val data = Array(1, 2, 3, 4, 5) val distData = sc.parallelize(data) distData.map(x => x * x).collect().foreach(println) 接着执行代码,如果能够得到正确的结果,那么就说明ZeppelinSpark已经连接成功了。 总之,ZeppelinSpark的连接非常简单,只需要按照上面的步骤进行配置即可。使用Zeppelin可以方便地进行Spark相关的编程任务,而且支持多种语言,非常实用。 <h3>回答3:</h3><br/>Zeppelin 是一个开源的数据分析和可视化工具,提供了丰富的组件。其中,连接 Spark 可以让用户更加方便地利用 Zeppelin 的交互式笔记本功能来进行 Spark 的数据分析和处理。 一、配置 1. 安装 Spark 首先需要安装 Spark 并设置好环境变量,确保命令行中可以调用 Spark 相关命令。同时,需要设置 Spark 依赖的 Hadoop 和 Hive 环境。 2. 配置 Zeppelin Interpreter 进入 Zeppelin 配置页面,点击 Interpreter 选项卡。找到 spark 相关的 Interpreter,设置为以下参数: - master:设置为本地或集群的 Spark 主节点 URL; - deploy.mode:设置为 client 或 cluster,表示在本地还是在集群环境中运行; - executor.memory:设置每个 executor 的内存大小; - Num executors:设置 executor 的数量。 保存设置,重新启动 Zeppelin。 二、使用 1. 创建 Notebook 在 Zeppelin 主界面中创建一个新的 Notebook,选择与 Spark 相关的 Interpreter。创建 Notebook 后,会自动在页面中显示 Spark 的版本和相关信息,说明连接 Spark 成功。 2. 编写代码 在 Notebook 中,可以使用 Scala、Python 或 SQL 等语言编写 Spark 相关代码。Zeppelin 会自动将代码解析并显示在界面中,供用户查看和交互。用户可以在代码中使用 Spark 相关的 API,完成数据分析和处理任务,并将结果显示在界面中进行可视化。 3. 运行代码和查看结果 用户可以使用 Shift+Enter 快捷键或点击运行按钮来运行代码。运行结束后,可以在页面下方查看代码执行的结果和输出。如果有可视化图表,会自动显示在页面中。用户还可以进行进一步的分析和操作,以及保存 Notebook 和结果。 总之,连接 Spark 可以让 Zeppelin 更加方便地进行数据分析和可视化。用户可以利用 Zeppelin 提供的丰富功能和灵活性,快速完成数据分析任务并生成可视化报告。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值