Spark 下载
Spark集群的搭建是建立在Hadoop分布式环境的基础上,如未搭建Hadoop环境,请参考第一篇和第二篇文章。
链接:http://spark.apache.org/downloads.html
按照如下配置下载(或者根据自己的情况):
Spark 安装
sudo tar -zxf ~/下载/spark-2.0.2-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.0.2-bin-without-hadoop/ ./spark
sudo chown -R hadoop ./spark
配置环境变量:
在 ~/.bashrc中追加:
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
source ~/.bashrc 使环境变量生效。
Spark 配置
1:配置slaves文件
cd /usr/local/spark/
cp ./conf/slaves.template ./conf/slaves
gedit ./conf/slaves,将localhost删除,添加
Master
Slave1
(请参考第二篇文章,会明白Master,以及Slave1)
2:配置spark-env.sh文件
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
添加到spark-env.sh:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=192.168.1.106
SPARK_MASTER_IP是你Master机器的ip地址。
配置好后,将Master主机上的/usr/local/spark文件夹复制到各个节点上。在Master主机上执行如下命令:
cd /usr/local/
tar -zcf ~/spark.master.tar.gz ./spark
cd ~
scp ./spark.master.tar.gz Slave1:/home/hadoop
在Slave1节点上分别执行下面同样的操作:
sudo rm -rf /usr/local/spark/
sudo tar -zxf ~/spark.master.tar.gz -C /usr/local
sudo chown -R hadoop /usr/local/spark
Spark启动和关闭
启动:
1:先启动Hadoop,
2:然后启动Spark,master节点
3:启动Spark,slave节点
sbin/start-all.sh
sbin/start-master.sh
start-slaves.sh
这是使用Jps在Master机器上,会多出Master和Worker(因为我让主节点也做为slave)
5603 ResourceManager
5060 NameNode
5752 NodeManager
5432 SecondaryNameNode
6329 Jps
6137 Master
5225 DataNode
6266 Worker
在Slave1机器上会多出Worker,则表示安装成功。
在浏览器上查看Spark独立集群管理器的集群信息
在master主机上打开浏览器,访问http://master:8080,如下图:
关闭Spark
sbin/stop-master.sh
sbin/stop-slaves.sh
stop-all.sh