安装条件:
1、安装jdk
2、安装hadoop集群
下载spark压缩包
用命令下载
cd /root/software # 安装路径
wget https://d3kbcqa49mib13.cloudfront.net/spark-2.4.0-bin-hadoop2.7.tgz
解压文件
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz
mv spark-2.4.0-bin-hadoop2.7 spark-2.4.0 # 修改文件名
配置环境变量
vim /etc/profile
# 添加
export SPARK_HOME=/root/software/spark-2.4.0
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
配置spark环境
cd spark-2.4.0
配置shark-env.sh 和 slaves
cp conf/spark-env.sh.template conf/spark-env.sh #copy
cp conf/slaves.template conf/slaves
vim conf/spark-env.sh
export JAVA_HOME=/root/software/jdk1.8.0_141 # Java安装目录
export HADOOP_HOME=/root/software/hadoop-2.7.2 # hadoop安装目录
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop # hadoop集群的配置文件的目录
export SPARK_MASTER_IP=SparkMaster # spark集群的Master节点的ip地址
export SPARK_WORKER_MEMORY=4g # 每个worker节点能够最大分配给exectors的内存大小
export SPARK_WORKER_CORES=2 # 每个worker节点所占有的CPU核数目
export SPARK_WORKER_INSTANCES=1 # 每台机器上开启的worker节点的数目
vim /etc/hosts
#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
#::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.4.211 node01
192.168.4.212 node02
192.168.4.213 node03
# 配置slaves
vim conf/slaves
# 添加 需要配置
node01
node02
node03
同步node02和node03
scp /root/software/spark-2.4.0 root@192.168.4.212:/root/software/
scp /root/software/spark-2.4.0 root@192.168.4.213:/root/software/
启动Spark集群
cd spark-2.4.0
sbin/star-all.sh
成功打开Spark集群之后可以进入Spark的WebUI界面,可以通过
SparkMaster_IP:8080
访问,可见有两个正在运行的Worker节点。