spark分布式环境搭建(1)spark环境搭建
在前面的文章当中,我已经将hadoop
这个分布式文件系统搭建完毕,接下来就是对spark
环境进行搭建。
注意
在搭建spark
之前,有几个点要注意到,因为我们用到的是spark
社区提供的安装包,里面可能有些功能是不支持的,需要自己去手动编译。相关的手动编译过程,如果有空的话,我记录一下如何手动编译spark
安装包(早知道他喵的就早点记录文档了,啊!好气)
另外一个,spark
集群主要有下面几种调度模式
- standalone
这个模式下面就会有那种spark://master:7077端口
- yarn
这个模式下面,yarn只是负责资源调度的,不存在7077端口
- mesos
接下来我想搭建一个spark on yarn
模式,因为spark
的standalone
模式一般做测试集群用。搭建文档有很多,有空的时候补上~
开始进行spark on yarn集群模式搭建
- 上传
spark
的安装包至服务器上的目录,我这里用的是/opt
tar -zxvf spark-3.0.0-preview2-bin-hadoop2.7.tgz
mv spark-3.0.0-preview2-bin-hadoop2.7 spark
- 配置spark
- 环境变量
vim /etc/profile ## 在下面添加 export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin ## 添加完毕 ## 使配置生效 source /etc/profile
- 修改
spark
配置文件
cd /opt/spark/conf cp spark-env.sh.template spark-env.sh vim spark-env.sh ## 下面是配置文件 # 设置hadoop的配置文件文件夹信息 HADOOP_CONF_DIR=/opt/hadoop-2.7.7/etc/hadoop YARN_CONF_DIR=/opt/hadoop-2.7.7/etc/hadoop JAVA_HOME=/opt/java/jdk1.8
- 配置
slaves
文件
cp slaves.template slaves vim slaves ## 在文件里面添加机器的hostname spark1 spark2 spark3
- 分发配置文件到各个机器上
scp -r /opt/spark spark2:/opt scp -r /opt/spark spark3:/opt ## 分发环境变量文件到各个机器 scp /etc/profile spark2:/etc scp /etc/profile spark3:/etc
- 每台机器上面执行
source /etc/profile
- 启动spark
检查启动状态:/opt/spark/sbin/start-all.sh
- 输入
jps
可以看到启动的角色,主节点有一个master
,从节点有worker
- 打开浏览器,输入
master
节点所在的ip:8080
端口号可以看到一个spark web UI
完成!!