本来这篇是要分享到我的“大数据与人工智能”专栏的,关注我的人虽然不多,但是我怕只关注devops的童鞋可能也想瞄一眼,所以在此分享。之后,只要不是属于devops工作范围的,我就一律不在此分享了,想了解其他的同学欢迎关注我的主页。
最近搭了了两套集群(hadoop集群和spark集群),而spark那一套,头说需要用到livy,就赶忙把它安装起来;(以下都是在已有集群环境上搭建的,如果是一台空的服务器,建议Google)
1、livy
简单来说,Livy是一个基于spark的开源的rest服务。
基本功能:
-
提交Scala、Python、R代码片段到远端spark集群上执行;
-
提交java、Scala、python所编写的spark作业到远端的spark集群上执行;
-
提交批处理应用到集群执行;
2、安装步骤
#安装mvn
wget https://mirrors.cnnic.cn/apache/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz
tar -xzvf apache-maven-3.5.4-bin.tar.gz
#修改环境变量
vi /etc/profile
export MAVEN_HOME=/root/apache-maven-3.5.4
export SPARK_HOME=/opt/cloudera/parcels/CDH-5.15.0-1.cdh5.15.0.p0.21/lib/spark #根据自己情况修改
export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH-5.15.0-1.cdh5.15.0.p0.21/lib/hadoop #根据自己情况修改
export PATH=${JAVA_HOME}/bin:${MAVEN_HOME}/bin:$PATH
source /etc/profile
#下载zip包
wget http://mirror.bit.edu.cn/apache/incubator/livy/0.5.0-incubating/livy-0.5.0-incubating-bin.zip
#解压
unzip livy-0.5.0-incubating-bin.zip
export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m -XX:MaxPermSize=512M"
mvn -Dmaven.test.skip clean package
#修改livy conf文件
vim ./livy-0.5.0-incubating-bin/conf/livy.conf.template
livy.server.port = 8998 #把注释都去掉
livy.spark.master = yarn-client
livy.spark.deploy-mode =client
livy.impersonation.enabled = true
livy.server.csrf-protection.enabled = false
livy.repl.enable-hive-context = true
#启动
./livy-0.5.0-incubating-bin//bin/livy-server #可能会报warning,但是可忽略
3、访问URL,成功