Spark集群权威指南

最新推荐文章于 2025-05-13 14:48:26 发布

GeekSeattle

最新推荐文章于 2025-05-13 14:48:26 发布

阅读量1.8k

点赞数 1

分类专栏：大数据文章标签： spark

本文链接：https://blog.csdn.net/GeekSeattle/article/details/78867725

版权

本文详细介绍了Spark的运行模式，包括Local、Standalone、YARN和Mesos，并比较了不同部署方式。在集群模式中，讲解了Spark的组件概念，如Driver、Executor和Stage。此外，还提供了在Hadoop集群上安装、配置Spark的步骤，包括解压安装、环境变量配置、验证安装。同时，文中还涉及了安装部署Hive，配置MySQL作为元数据库，并解决启动过程中的问题。最后，讨论了SparkSQL的配置和验证。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark集群权威指南

Spark运行模式

Spark部署模式主要有四种：最简单就是Local模式（单机本地模式）、当然 Spark 还有自带的Standalone模式（使用Spark自带的简单集群管理器）。还有单机伪分布式模式，复杂的则运行在集群中，目前能很好的运行在 YARN模式（使用YARN作为集群管理器）和Mesos模式（使用Mesos作为集群管理器）中。对于大多数情况 Standalone 模式就足够了，如果企业已经有 Yarn 或者 Mesos 环境，也是很方便部署的。需要说明的是，当安装好Spark以后，里面就自带了scala环境。

local(本地模式)：常用于本地开发测试，本地还分为local单线程和local-cluster多线程;

standalone(集群模式)：典型的Mater/slave模式，不过也能看出Master是有单点故障的；Spark支持ZooKeeper来实现 HA

on yarn(集群模式)：运行在 yarn 资源管理器框架之上，由 yarn 负责资源管理，Spark 负责任务调度和计算

on mesos(集群模式)：运行在 mesos 资源管理器框架之上，由 mesos 负责资源管理，Spark 负责任务调度和计算

on cloud(集群模式)：比如 AWS 的 EC2，使用这个模式能很方便的访问 Amazon的 S3;Spark 支持多种分布式存储系统：HDFS 和 S3

分布式部署方式比较

standalone模式自带完整的服务，可单独部署到一个集群中，无需依赖任何其他资源管理系统从一定程度上说，该模式是Mesos和YARN模式的基础

Spark On Mesos模式。这是很多公司采用的模式，官方推荐这种模式。

Spark On YARN模式。这是一种最有前景的部署模式。

参考:http://blog.csdn.net/zhangqiagn1104/article/details/49800541

上面涉及到Spark的许多部署模式，究竟哪种模式好这个很难说，需要根据你的需求，如果你只是测试Spark Application，你可以选择local模式。而如果你数据量不是很多，Standalone 是个不错的选择。当你需要统一管理集群资源（Hadoop、Spark等），可以选择Yarn或mesos，但是这样维护成本就会变高。