1、下载spark地址为:http://spark.apache.org/downloads.htmlnloads.html,因为我使用MongoDB作为存储,所以根据spark-mongo版本进行选择版本为:spark-2.2.0-bin-hadoop2.6.tgz
2、服务器环境设置:配置集群之间免密登录,具体配置方式见另外博客,并设置主机host(设置完主机host后需要重启服务器生效)
3、解压配置环境变量:
vi /etc/profile
- 1
在最尾巴加入
export SPARK_HOME=/usr/local/spark-2.2.0
export PATH=$PATH:$SPARK_HOME/bin
打开spark-2.2.0
文件夹
cd spark-2.2.0
- 1
4、配置spark环境变量
此处需要配置的文件为两个
spark-env.sh
和slaves
vi conf/spark-env.sh
在最尾巴加入
export JAVA_HOME=/usr/java/jdk1.8.0_141
export SCALA_HOME=/usr/scala-2.11.7
export HADOOP_HOME=/usr/local/hadoop-2.7.2
export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.2/etc/hadoop
export SPARK_MASTER_IP=SparkMaster
export SPARK_WORKER_MEMORY=4g
export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1
变量说明
- JAVA_HOME:Java安装目录
- SCALA_HOME:Scala安装目录
- HADOOP_HOME:hadoop安装目录
- HADOOP_CONF_DIR:hadoop集群的配置文件的目录
- SPARK_MASTER_IP:spark集群的Master节点的ip地址
- SPARK_WORKER_MEMORY:每个worker节点能够最大分配给exectors的内存大小
- SPARK_WORKER_CORES:每个worker节点所占有的CPU核数目
- SPARK_WORKER_INSTANCES:每台机器上开启的worker节点的数目
vi conf/slaves
在最后面修成为
SparkWorker1
SparkWorker2
SparkWorker1与SparkWorker2为spark集群的host名称。
6、同步集群spark包文件
rsync -av /usr/local/spark-2.2.0/ SparkWorker1:/usr/local/spark-2.2.0/
- 1
rsync -av /usr/local/spark-2.2.0/ SparkWorker2:/usr/local/spark-2.2.0/
保证所有的集群版本和配置文件一致。
7、启动spark
./sbin/start-all.sh
成功打开之后使用jps
在SparkMaster
、parkWorker1
和SparkWorker2
节点上分别可以看到新开启的Master
和Worker
进程。
输入masterip:8080可以打sparkui进行查看spark运行状态