【超详细】 Spark 3.x 分布式集群安装教程（Standalone 模式）

原创

已于 2025-08-28 15:42:09 修改 · 1.8k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#分布式 #spark #大数据

于 2025-08-28 15:06:29 首次发布

前言

大家好， Spark 作为新一代大数据处理框架，以其卓越的性能和丰富的API生态占据了大数据领域的半壁江山。今天，我将手把手带大家完成 Spark 分布式集群的搭建（Standalone 模式）。无论你是大数据新手还是想温故知新，这篇教程都将对你有所帮助。

集群环境：

操作系统： CentOS 7.9 (同样适用于 Ubuntu 等主流 Linux 发行版)

节点规划：

master: 192.168.1.101 (作为 Master 节点)

worker1: 192.168.1.102 (作为 Worker 节点)

worker2: 192.168.1.103 (作为 Worker 节点)

软件版本：

Java: OpenJDK 1.8.0_372

Spark: Apache Spark 3.4.1

Hadoop: (无需安装HDFS，Spark自带客户端库) 3.3.6

一、核心概念与架构

在开始之前，我们先简单了解下 Spark Standalone 模式的架构：

Master Node (主节点): 集群的“大脑”，负责整个集群的资源调度和任务分配。
Worker Node (从节点): 集群的“劳动力”，负责在节点上启动 Executor 进程来执行具体的计算任务，并向 Master 汇报资源情况。
Driver Program: 你的应用程序（比如 spark-shell 或你自己提交的 Jar 包），它创建 SparkContext，是应用执行的起点。
Executor: 位于 Worker 节点上的进程，负责运行具体的 Task（任务），并将数据存储在内存或磁盘中。

我们的目标就是配置一个 一主（master）两从（worker1, worker2） 的集群。

二、安装前准备 (在所有节点上操作)

以下步骤如无特别说明，需要在所有三台服务器（master, worker1, worker2）上执行。

1. 配置主机名与 hosts 映射

为了方便节点间通信，我们需要配置主机名解析。

设置主机名 (在每个节点上单独设置)

bash

# 在 master 节点执行
hostnamectl set-hostname master

# 在 worker1 节点执行
hostnamectl set-hostname worker1

最低0.47元/天解锁文章