以zeppelin为例,它是一个基于网页的notebook,可以进行数据分析与可视化,zeppelin里有个概念是解释器,解释器使得很多后端语言能够像插件一样在zeppelin中使用,例如 Spark,、Python、sql、shell等等。具体介绍看zeppelin官网。
添加zeppelin服务时不必关掉其他服务。
我要用到python,而支持python的话需要自己编译zeppelin。
将编译好的zeppelin打包命名为zeppelin.tar.gz,拷贝到/tmp 文件夹下。
1. 下载服务向导包并解压
代码如下,其中,$VERSION 是HDP对应的版本号。
wget https://github.com/hortonworks-gallery/ambari-zeppelin-service/archive/master.zip -O /tmp/ZEPPELIN.zip
unzip /tmp/ZEPPELIN.zip -d /var/lib/ambari-server/resources/stacks/HDP/$VERSION/services
登入ambari 管理页面后,左侧一栏 点击 Actions ,结果如图:
勾选上zeppelin notebook:
选择安在某台机器上都可以,我选的master :
下一步,开始设置各项参数。
其中需要注意的有:
设置
zeppelin.install_python_packages=true
,表示要下载python包,
zeppelin.setup.prebuilt=true
, 表示我们用自己编译的zeppelin,就是我们提前放到/tmp下的zeppelin.tar.gz。
zeppelin.setup.view=true
,表示有zeppelin view的快捷打开页面。
下面 zeppelin.executor.mem在这儿以下,根据你自己的内存及任务需要内存设置即可。一般512m够用。
在zeppelin-env template里,需要注意的有:
export MASTER=yarn-client
代表zeppelin的任务要提交到yarn上执行。除了在yarn上执行,还可以本地执行,值为local。
SPARK_HOME HADOOP_CONF_DIR
和PYTHONPATH
要确保这些没有被注释。
在custom zeppelin-config里,添加一个属性:
zeppelin.host.publicname
,值为安装zeppelin服务的机器的域名,对本集群而言,是master.org.cn,如图:
确认好配置信息后,下一步,
好了,开始安装啦~
等它完事儿就好~~