一、下载Spark软件包
从Apache Spark的官方网站下载Spark软件包:
https://archive.apache.org/dist/spark/
选择3.5.0版本。
二、上传软件包
将下载的软件包上传到虚拟机的主机上。
三、解压到/opt/module
tar -zxvf spark-3.5.0-bin-hadoop3.tgz -C /opt/module/
四、部署Spark环境
1. 修改spark软件包的名字
为了方便后续访问,修改软件包名称:
mv spark-3.5.0-bin-hadoop3 spark-3.5.0
2. 配置环境变量
在任意路径下都能访问到spark软件包中的文件或文件夹。
注意:如果环境变量配置错误,导致基本命令(如ll
,vi
)找不到,输入以下命令:
export PATH=$PATH:/usr/bin:/usr/sbin:/bin:/sbin
3. 生效环境变量的配置
source /etc/profile
4. 修改spark的配置文件
(1)去掉临时文件后缀:
mv spark-env.sh.template spark-env.sh
mv spark-defaults.conf.template spark-defaults.conf
(2)修改spark-env.sh
# 添加jdk环境变量
export JAVA_HOME=$JAVA_HOME
# 添加hadoop环境变量
export HADOOP_HOME=$HADOOP_HOME
# 添加hadoop文件所在的路径
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
五、运行spark自带案例进行验证
进入spark下的bin目录下,运行SparkPi示例:
./run-example SparkPi 2>&1 | grep "Pi is"