下载完成后进行解压:
tar -zxvf spark-2.1.1.tgz
#简短的名字易于操作
mv spark-2.1.2-bin-hadoop2.7 ./spark
解压到目标目录即完成安装, spark 解压后主要包含如下子目录:
bin/ (工具程序目录)
conf/ (配置文件目录)
jars/ (scala Jar 包目录)
python/ (python package 目录)
sbin/ (服务程序管理脚本目录)
data —— Spark测试文件
examples —— Spark示例程序
不做任何配置,此时已可以启动 Spark 服务:
sbin/start-all.sh
jps
#29584 Master
#29670 Worker
如果没有端口冲突,一般都能启动成功。本例中这种运行模式 spark 称之为 Standalone(独立模式,不依赖其它服务构成集群),这种模式一般包括一个 Master 实例和多个 Worker 实例,能以最简单的方式建立起一个集群,方便开发和构建小规模集群。Spark 还支持 Local 和基于通用资源管理器(mesos, YARN) 的集群两种运行模式,分别适用于开发调试与大规模集群部署两种场景。
Spark集群环境搭建
1.机器与环境准备:
-
1.1:准备node-01 node-02 node-03三台机器完成
-
1.2:三台机器已经正常运行hadoop集群,关闭linux防火墙
-
1.3:准备好三台机器的java环境
#修改配置文件`spark-env.sh`, 以指定运行参数
cd /export/servers/spark/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
#将以下内容复制进配置文件末尾
# 指定 Java Home(根据自己机器的路径修改)
export JAVA_HOME=/export/servers/jdk1.8.0
# 指定 Spark Master 地址
export SPARK_MASTER_HOST=node01 //主节点
export SPARK_MASTER_PORT=7077 //运行端口
#修改slaves配置文件
cd /export/servers/spark/conf
mv slaves.template slaves
vi slaves
#添加如下内容,node-01
node-01
node-02
node-03
(6) 配置环境变量:
修改配置文件:
vi /etc/profile
增加以下内容:
export SPARK_HOME=spark安装路径
export PATH=$PATH:$SPARK_HOME/bin
export PATH=$PATH:$SPARK_HOME/sbin
声明环境变量:
source /etc/profile
#4.分发配置文件
#将 Spark 安装包分发给集群中其它机器
cd /export/servers
scp -r spark root@node02:$PWD
scp -r spark root@node03:$PWD
启动 Spark Master 和 Slaves,
#启动集群
#cd /export/servers/spark
sbin/start-all.sh
(7) 启动:
启动主节点:
start-master.sh
启动从节点:
start-slaves.sh
启动shell:
spark-shell
通过网页端查看:
http://bigdata01:8080/
Spark中内置有Tomcat,故端口号默认为8080
(8) 关闭:
关闭主节点:
stop-master.sh
关闭从节点:
stop-slaves.sh