【Spark】Spark的Standalone模式安装部署

最新推荐文章于 2024-08-12 23:51:20 发布

JasonDing1354

最新推荐文章于 2024-08-12 23:51:20 发布

阅读量5.5k

点赞数

分类专栏：【Spark】文章标签： spark

本文链接：https://blog.csdn.net/jasonding1354/article/details/46828315

版权

本文详细介绍了Spark的Standalone模式安装部署，包括集群和伪分布式部署。首先讲解了Spark的运行模式，然后阐述了Standalone集群的准备工作，如安装Hadoop、配置ssh无密码登录和Java环境。接着，详述了部署配置步骤，如配置spark-env.sh和slave文件。最后，提到了Spark Client的部署和Spark Standalone伪分布式部署的方法。

摘要由CSDN通过智能技术生成

Spark运行模式

Spark 有很多种模式，最简单就是单机本地模式，还有单机伪分布式模式，复杂的则运行在集群中，目前能很好的运行在 Yarn和 Mesos 中，当然 Spark 还有自带的 Standalone 模式，对于大多数情况 Standalone 模式就足够了，如果企业已经有 Yarn 或者 Mesos 环境，也是很方便部署的。

local(本地模式)：常用于本地开发测试，本地还分为local单线程和local-cluster多线程;

standalone(集群模式)：典型的Mater/slave模式，不过也能看出Master是有单点故障的；Spark支持ZooKeeper来实现 HA

on yarn(集群模式)：运行在 yarn 资源管理器框架之上，由 yarn 负责资源管理，Spark 负责任务调度和计算

on mesos(集群模式)：运行在 mesos 资源管理器框架之上，由 mesos 负责资源管理，Spark 负责任务调度和计算

on cloud(集群模式)：比如 AWS 的 EC2，使用这个模式能很方便的访问 Amazon的 S3;Spark 支持多种分布式存储系统：HDFS 和 S3

Spark Standalone集群部署

准备工作

这里我下载的是Spark的编译版本，否则需要事先自行编译
Spark需要Hadoop的HDFS作为持久化层，所以在安装Spark之前需要安装Hadoop，这里Hadoop的安装就不介绍了，给出一个教程Hadoop安装教程_单机/伪分布式配置
实现创建hadoop用户，Hadoop、Spark等程序都在该用户下进行安装
ssh无密码登录，Spark集群中各节点的通信需要通过ssh协议进行，这需要事先进行配置。通过在hadoop用户的.ssh目录下将其他用户的id_rsa.pub公钥文件内容拷贝的本机的authorized_keys文件中，即可事先无登录通信的功能
Java环境的安装，同时将JAVA_HOME、CLASSPATH