前言
本文环境基于Hadoop - Yarn平台搭建
Yarn的平台环境默认已经搭建完毕
前置环境
Linux集群 , Java , Zookeeper , Hadoop , Scala , python-pip(pssh)
下载Spark安装包
官网地址 https://spark.apache.org/downloads.html
如果外网下载速度较慢 , 可以找到对应版本号后 , 下载国内源的镜像
镜像地址
清华大学镜像 - https://mirrors.tuna.tsinghua.edu.cn/apache/spark
上海大学镜像 - http://mirrors.shuosc.org/apache/spark/
Spark安装
下载成功
解压缩
修改配置文件
复制并修改spark-env.sh.template
export JAVA_HOME=/root/apps/jdk1.8.0_191
export SCALA_HOME=/root/apps/scala-2.12.8
export HADOOP_HOME=/root/apps/hadoop-2.8.5
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
#export SPARK_MASTER_HOST=hdp-01
#export SPARK_LOCAL_IP=0.0.0.0
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_MEMORY=1024m
export SPARK_WORKER_CORES=1
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hdp-01:2181,hdp-02:2181,hdp-03:2181,hdp-04:2181 -Dspark.deploy.zookeeper.dir=/root/apps/spark-2.2.2-bin-hadoop2.6"#export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hdp-01,hdp-02,hdp-03"
######配置说明#####
#做了spark的HA配置 , 集群主从配置由Zookeeper接管
#Zookeeper会保存spark集群的所有状态信息 , 包括所有的workers、application、driver信息
#保存位置在/spark
复制并修改slaves.template
分发安装包到其它节点 , 视网络状态 , 需要几分钟时间
配置启动环境
分发环境配置
启动Spark
先启动zookeeper集群
再启动HDFS集群
最后启动Spark集群
查看hdp-01
其它节点
到此 , Spark集群的基本环境配置就完成了 , 可以通过浏览器查看集群状态