安装、配置、启动Spark集群
在 master 节点操作
(1)切换到 /opt 目录下
cd /opt/
(2)在官网下载spark的安装包,并上传至服务器上
(3)解压 spark 文件到当前目录(/opt)下面,使用相对路径或者绝对路径均可,下面的命令使用绝对路径
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz -C /opt
(4)给Spark文件重命名为spark-2.2.0
mv spark-2.2.0-bin-hadoop2.7 spark-2.2.0
(5)配置环境变量,编辑 /etc/profile 文件,在文件最后添加 spark 路径
vim /etc/profile
export SPARK_HOME=/opt/spark-2.2.0
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
(6)使环境变量生效
source /etc/profile
(7)切换到 /opt/spark-2.2.0/conf 目录下
cd /opt/spark-2.2.0/conf
(8)修改 spark 的配置文件 spark-env.sh
先将文件 spark-env.sh.template 重命名为 spark-env.sh
mv spark-env.sh.template spark-env.sh
再修改文件spark-env.sh
vim spark-env.sh
修改内容如下:
JAVA_HOME=/opt/jdk1.8.0_111
SPARK_MASTER_HOST=master
#默认端口就是7077, 可以不配置此项
SPARK_MASTER_PORT=7077
YARN_CONF_DIR=/opt/hadoop-2.7.6/etc/hadoop
(9)修改spark的配置文件
①、先将文件slaves.template重命名为slaves
mv slaves.template slaves
②、再修改文件slaves
vim slaves
修改内容如下:
master
slave1
slave2
(10)由于slave1节点也需要安装 spark,因此可以先将master节点的 /opt/spark-2.2.0 文件和 /etc/profile 文件拷贝到slave1的相同路径下
scp -r /opt/spark-2.2.0 root@slave1:/opt
scp /etc/profile root@slave1:/etc
(11)由于slave2节点也需要安装 spark,因此可以先将master节点的 /opt/spark-2.2.0 文件和 /etc/profile 文件拷贝到slave2的相同路径下
scp -r /opt/spark-2.2.0 root@slave2:/opt
scp /etc/profile root@slave2:/etc
(12)使用 Yarn 模式运行计算 PI 的程序
①、切换到/opt/spark-2.2.0目录下
cd /opt/spark-2.2.0
②、使用 Yarn 模式运行计算 PI 的程序
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.2.0.jar 100
(13)启动Spark集群
./../sbin/start-all.sh
(14)查看主从节点进程
①、查看主节点(master)的进程
jps
以下操作在slave1节点进行
②、查看从节点(slave1)的进程
souce /etc/profile
jps
③、查看主节点(slave1)的进程
souce /etc/profile
以下操作在slave2节点进行
④、查看从节点(slave2)的进程
jps
到此就安装结束了