安装spark
1.列表内容
spark下载:http://spark.apache.org/downloads.html
2.将spark进行解压:
s100:/soft $>tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz
s100:/soft $> ln -s spark-2.3.0-bin-hadoop2.7 spark
3.配置环境变量
$> sudo nano /etc/environment
PATH = ':/soft/spark/bin:/soft/spark/sbin'
SPARK_HOME=/soft/spark
使配置生效: $> source /etc/environment
4.配置/spark/conf
s100:/soft/spark/conf $> cp slaves.template slaves
s100:/soft/spark/conf $> sudo nano slaves
在slaves文件下填上slave主机名:
s101
s102
s103
5.配置spark/sbin
s100:/soft/spark/sbin $>mv start-all.sh start-spark-all.sh
s100:/soft/spark/sbin $>mv stop-all.sh stop-spark-all.sh
原因:
如果集群中也配置HADOOP_HOME,那么在HADOOP_HOME/sbin目录下也有start-all.sh和stop-all.sh这两个文件,当你执行这两个文件,系统不知道是操作hadoop集群还是spark集群。修改后就不会冲突了,当然,不修改的话,你需要进入它们的sbin目录下执行这些文件,这肯定就不会发生冲突了。
6.配置集群
将以上配置分发到其他节点:s101,s102,s103
7.启动spark集群
s100:$> start-spark-all.sh
s100:$> jps
4064 Jps
3846 Master
8.webUI查看集群启动情况