安装spark前的准备工作
在安装spark前检查是否安装了jdk,以及jdk版本是否与即将安装的spark版本一致
安装包下载
链接:spark安装包
提取码:lyq6
将spark安装包拖入linux系统中进行安装
- 将安装包放在更目录下创建的software文件夹中
//找到更目录
cd ~
//创建文件夹
mkdir software
- 将安装包放入文件夹中
- 解压安装包到相应的文件夹下
//解压安装包到相应的文件夹下
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz -C /opt/soft
//找到相应目录,更改解压文件夹名字
cd /opt/soft
mv spark-2.2.0-bin-hadoop2.7/ spark
- 配置环境变量
进入环境变量文件
vi /etc/profile
添加内容
export SPARK_HOME=/opt/soft/spark
export PATH=$SPARK_HOME/bin:$PATH
使配置的环境变量生效
source /etc/profile
- 配置文件
进入spark,更改配置文件名,进入改名后的配置文件
cd $SPARK_HOME
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
vi ./conf/spark-env.sh
内容修改:
export JAVA_HOME=/opt/jdk1.8.0_221
export HADOOP_HOME=/opt/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
#指定master的主机
export SPARK_MASTER_HOST=lyq
#指定master的端口
export SPARK_MASTER_PORT=7077
- 修改配置文件slaves.template
- 改名为:slaves
cp ./conf/slaves.template ./conf/slaves
- 配置内容
#进入文件
vi ./conf/slaves
#修改内容
将localhost改名为自己主机名
lyq
- 保存退出
启动Spark Standalone集群
启动hadoop,根目录输入:start-all.sh
在spark目录下,输入:sbin/start-all.sh
启动spark-shell 测试scala交互式环境
在spark目录下输入:spark-shell --master spark://lyq:7077
输入:q
退出
测试Spark on YARN
在spark目录下输入:spark-shell --master yarn