Spark的安装部署以及程序测试

最新推荐文章于 2023-09-14 20:50:58 发布

故明所以

最新推荐文章于 2023-09-14 20:50:58 发布

阅读量914

点赞数

分类专栏： Spark 文章标签：大数据 spark

本文链接：https://blog.csdn.net/weixin_43520450/article/details/106025979

版权

一、Spark的体系结构与安装部署

1.1 Spark集群的体系结构

官方的结构图：
在这里插入图片描述
更详细的结构图：

1.2 Spark的安装与部署

Spark的安装部署方式有以下几种模式：

Standalone
YARN
Mesos
Amazon EC2

（1）Spark Standalone伪分布的部署

配置文件：conf/spark-env.sh

export JAVA_HOME=/root/training/jdk1.7.0_75
export SPARK_MASTER_HOST=spark81
export SPARK_MASTER_PORT=7077

#下面的可以不写，默认
export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=1024m

配置文件：conf/slave

spark81

（2）Spark Standalone全分布的部署

配置文件：conf/spark-env.sh

export JAVA_HOME=/root/training/jdk1.7.0_75
export SPARK_MASTER_HOST=spark82
export SPARK_MASTER_PORT=7077

#下面的可以不写，默认
export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=1024m

配置文件：conf/slave

spark83
spark84

（3）启动Spark集群：sbin/start-all.sh

ip：8080（端口号）
在这里插入图片描述

1.3 Spark HA的实现

（1）基于文件系统的单点恢复

主要用于开发或测试环境。当spark提供目录保存spark Application和worker的注册信息，并将他们的恢复状态写入该目录中，这时，一旦Master发生故障，就可以通过重新启动Master进程（sbin/start-master.sh），恢复已运行的spark Application和worker的注册信息。

基于文件系统的单点恢复，主要是在spark-env.sh里对SPARK_DAEMON_JAVA_OPTS设置

参数配置	参考值
spark.deploy.recoveryMode	设置为FILESYSTEM开启单点恢复功能，默认值：NONE
spark.deploy.recoveryDirectory	Spark 保存恢复状态的目录

export SPARK_DAEMON_JAVA_OPTS=
"-Dspark.deploy.recoveryMode=FILESYSTEM -Dspark.deploy.recoveryDirectory=
/root/training/spark-2.1.0-bin-hadoop2.7/recovery"

测试：
1、在spark82上启动Spark集群
2、在spark83上启动spark shell

 MASTER=spark://spark82:7077 spark-shell

3、在spark82上停止master

 stop-master.sh

4、观察spark83上的输出:
在这里插入图片描述
5、在spark82上重启master

start-master.sh

（2）基于Zookeeper的Standby Masters

ZooKeeper提供了一个Leader Election机制，利用这个机制可以保证虽然集群存在多个Master，但是只有一个是Active的，其他的都是Standby。当Active的Master出现故障时，另外的一个Standby Master会被选举出来。由于集群的信息，包括Worker， Driver和Application的信息都已经持久化到ZooKeeper，因此在切换的过程中只会影响新Job的提交，对于正在进行的Job没有任何的影响。加入ZooKeeper的集群整体架构如下图所示。
在这里插入图片描述

配置参数	参考值
spark.deploy.recoveryMode	设置为ZOOKEEPER开启单点恢复功能，默认值：NONE
spark.deploy.zookeeper.url	ZooKeeper集群的地址
spark.deploy.zookeeper.dir	Spark信息在ZK中的保存目录，默认：/spark

参考：

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.

最低0.47元/天解锁文章

故明所以

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录