一、Master节点配置
1、解压
cd /usr/local/soft/
tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz
2、添加环境变量
vi /etc/profile
添加如下内容:
export SPARK_HOME=/usr/local/soft/spark-2.4.3-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
使环境变量生效
source /etc/profile
3、修改启动变量文件
cd /usr/local/soft/spark-2.4.3-bin-hadoop2.7/conf/
cp spark-env.sh.template spark-env.sh
cp slaves.template slaves
编辑spark-env.sh文件 vi spark-env.sh
# JDK目录
export JAVA_HOME=/usr/local/soft/jdk1.8.0_11
# Scala目录
export SCALA_HOME=/usr/local/soft/scala-2.11.8
# Master IP地址
export SPARK_MASTER_IP=hadoop100
# Worker运行内存
export SPARK_WORKER_MEMORY=1024m
# hadoop配置文件目录
export HADOOP_CONF_DIR=/usr/local/soft/hadoop-3.2.0/etc/hadoop
集群中Worker运行内存可以适当调整3g~8g的范围
4、修改slaves文件
vi slaves
去掉localhost,添加如下内容
hadoop101
hadoop102
二、集群拷贝
scp -r /usr/local/soft/spark-2.4.3-bin-hadoop2.7 root@hadoop101:/usr/local/soft
scp -r /usr/local/soft/spark-2.4.3-bin-hadoop2.7 root@hadoop102:/usr/local/soft
scp /etc/profile root@hadoop101:/etc/profile
scp /etc/profile root@hadoop102:/etc/profile
计算节点SPARK_WORKER_MEMORY根据实际情况可进行修改
环境变量生效
source /etc/profile
三、集群启动
先启动hadoop,然后才能执行以下命令
Master节点启动
cd /usr/local/soft/spark-2.4.3-bin-hadoop2.7
sbin/start-all.sh
检验:jps
查看master节点:
查看计算节点:
启动客户端
./bin/spark-shell
提示:如果8080端口被占用,程序会自动将端口号往后推算:8081
查看端口是否使用命令:
netstat -tnlp
集群提交测试:
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://hadoop100:7077 /usr/local/soft/spark-2.4.3-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.3.jar
任务执行界面:http://hadoop101:4040
此界面必须在任务执行的时候才能访问: