1、安装scala
- 下载
wget https://downloads.lightbend.com/scala/2.12.18/scala-2.12.18.tgz
- 解压安装
tar -xvf scala-2.12.18.tgz
- 修改环境变量
vim /etc/profile
#增加以下
export SCALA_HOME=/Data/scala-2.12.18
export PATH=$SCALA_HOME/bin:$PATH
#更新变量
source /etc/profile
- 检查是否安装成功
scala -varsion
2、安装spark
- 下载
wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz --no-check-certificate
- 解压安装
tar -xvf spark-3.5.0-bin-hadoop3.tgz
- 配置环境变量
vim /etc/profile
#增加以下
export SPARK_HOME=/Data/spark-3.5.0-bin-hadoop3
export PATH=$SPARK_HOME/bin:$PATH
#更新变量
source /etc/profile
- 配置spark及集群信息
#进入spark配置文件所在目录
cd /Data/spark-3.5.0-bin-hadoop3/conf
#修改配置文件信息
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
新增如下变量
export JAVA_HOME=/opt/jdk1.8.0_381
export SCALA_HOME=/Data/scala-2.12.18
export HADOOP_CONF_DIR=/Data/hadoop/hadoop/etc/hadoop
export SPARK_HOME=/Data/spark-3.5.0-bin-hadoop3
export SPARK_MASTER_IP=master #配置Master节点的主机名,单机用localhost即可
export SPARK_EXECUTOR_MEMORY=1G #WorkNode分给多少内存
export SPARK_MASTER_HOST=master #如果是完全分布式, 每一个节点都需要配置这个
export SPARK_LOCAL_IP=master #当前节点的主机名
export SPARK_WORKER_CORES=2 #每个Worker进程所需要的CPU核的数目
- 修改配置文件workers
cp workers.template workers
vim workers
添加内容
master
slave56
slave58
注意:版本比较旧的话,文件叫这个名称slaves.template
- 启动和测试Spark集群
因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在正常运行。在hadoop正常运行的情况下,在hserver1(也就是hadoop的namenode,spark的marster节点)上执行命令:
cd /Data/spark-3.5.0-bin-hadoop3/sbin
./start-all.sh
浏览器访问:http://MASTER_IP:8080/