前言
大家好, Spark 作为新一代大数据处理框架,以其卓越的性能和丰富的API生态占据了大数据领域的半壁江山。今天,我将手把手带大家完成 Spark 分布式集群的搭建(Standalone 模式)。无论你是大数据新手还是想温故知新,这篇教程都将对你有所帮助。
集群环境:
操作系统: CentOS 7.9 (同样适用于 Ubuntu 等主流 Linux 发行版)
节点规划:
master: 192.168.1.101 (作为 Master 节点)
worker1: 192.168.1.102 (作为 Worker 节点)
worker2: 192.168.1.103 (作为 Worker 节点)
软件版本:
Java: OpenJDK 1.8.0_372
Spark: Apache Spark 3.4.1
Hadoop: (无需安装HDFS,Spark自带客户端库) 3.3.6
一、核心概念与架构
在开始之前,我们先简单了解下 Spark Standalone 模式的架构:
-
Master Node (主节点): 集群的“大脑”,负责整个集群的资源调度和任务分配。
-
Worker Node (从节点): 集群的“劳动力”,负责在节点上启动
Executor进程来执行具体的计算任务,并向 Master 汇报资源情况。 -
Driver Program: 你的应用程序(比如
spark-shell或你自己提交的 Jar 包),它创建SparkContext,是应用执行的起点。 -
Executor: 位于 Worker 节点上的进程,负责运行具体的
Task(任务),并将数据存储在内存或磁盘中。
我们的目标就是配置一个 一主(master)两从(worker1, worker2) 的集群。
二、安装前准备 (在所有节点上操作)
以下步骤如无特别说明,需要在所有三台服务器(master, worker1, worker2)上执行。
1. 配置主机名与 hosts 映射
为了方便节点间通信,我们需要配置主机名解析。
-
设置主机名 (在每个节点上单独设置)
bash
# 在 master 节点执行 hostnamectl set-hostname master # 在 worker1 节点执行 hostnamectl set-hostname worker1

最低0.47元/天 解锁文章
684

被折叠的 条评论
为什么被折叠?



