1.将spark上传到虚拟机中,注意自己安装的hadoop的版本
2.解压spark到apps中
tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz
3.修改配置文件
cd apps/spark-2.4.4-bin-hadoop2.7/conf
将spark-env.sh.template和slaves.template进行重命名
mv spark-env.sh.template spark-env.sh
mv slaves.template slaves
在spark-env.sh文件最下边加入
export JAVA_HOME=/root/apps/jdk1.8.0_201
#export SPARK_MASTER_HOST=hdp-1
#export SPARK_MASTER_PORT=7077
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hdp-1,hdp-2,hdp-3 -Dspark.deploy.zookeeper.dir=/spark"
export SPARK_WORKER_CORES=8
export SPARK_WORKER_MEMORY=6g
export SPARK_LOCAL_IP="192.168.43.131"
其中JAVA_HOME是机器jdk的安装路径,SPARK_DAEMON_JAVA_OPTS是集群zookeeper的安装机器
SPARK_LOCAL_IP是本机的IP地址
在slaves文件最下边加入其他Spark机器的IP地址
hdp-2
hdp-3
hdp-4
完成之后将Spark安装目录拷贝到其他机器中修改配置文件即可使用
4.启动Spark集群
到Spark的sbin目录下./start-all.sh
启动时应该先启动zookeeper,在启动hadoop集群,在启动Spark