注意:在安装spark之前一定要确保自己虚拟机已经安装了jdk,如果没有请看我之前的博客。
1.spark资源(自取):
https://pan.baidu.com/s/1Kn0-UnZ8AMLiHF4l2YGcLQ
提取码:ao3w
2.将压缩包上传到Linux系统,并进行解压和安装
//解压
tar -zxf spark-2.3.4-bin-hadoop2.6.tgz
//个人习惯将安装的软件放在soft文件夹下,没有就自己新建一个
mv spark-2.3.4-bin-hadoop2.6 /opt/soft/spark234
3.修改配置文件
在 conf下修改
cd /opt/soft/spark234/conf
//拷贝slaves.template和spark-env.sh.template文件
cp slaves.template slaves
cp spark-env.sh.template spark-env.sh
//如果搭建集群就在slaves将localhost改成你的两个work节点名,我这里是伪分布式,就没改
//spark-env.sh(添加如下配置)
export SPARK_MASTER_HOST=192.168.56.101 //主节点IP(改自己的主节点IP)
export SPARK_MASTER_PORT=7077 //任务提交端口
export SPARK_WORKER_CORES=2 //每个worker使用2核
export SPARK_WORKER_MEMORY=3g //每个worker使用3g内存
export SPARK_MASTER_WEBUI_PORT=8888 //修改spark监视窗口的端口默认8888
export HADOOP_CONF_DIR=/opt/soft/hadoop260/etc/hadoop //此项为Hadoop配置文件的目录地址,必须配此配置,不然无法在yarn上启动spark
//修改sbin下spark-conf.sh
export JAVA_HOME=/opt/soft/jdk180 //自己虚拟机里的jdk安装地址
4.启动spark
启动spark服务
//由于命令和hadoop启动的命令一样,我这里就没配置spark的环境变量,以防两个软件打架
//进入spark的sbin目录下启动,输入以下命令
./start-all.sh
启动spark shell命令
//进入spark的bin目录下,输入以下命令
./spark-shell --master local[*] //local启动方式,括号里代表核数,此方法开启shell窗口不需要启动spark服务
./spark-shell --master spark://(master节点的主机名或者IP地址):7077 //standalone启动方式,此启动方式开启shell窗口需提前打开spark服务
./spark-shell --master yarn //yarn启动方式
如果能正常启动,即安装完成!!!