【超详细】 Spark 3.x 分布式集群安装教程(Standalone 模式)

前言

大家好, Spark 作为新一代大数据处理框架,以其卓越的性能和丰富的API生态占据了大数据领域的半壁江山。今天,我将手把手带大家完成 Spark 分布式集群的搭建(Standalone 模式)。无论你是大数据新手还是想温故知新,这篇教程都将对你有所帮助。

集群环境:

  • 操作系统: CentOS 7.9 (同样适用于 Ubuntu 等主流 Linux 发行版)

  • 节点规划:

    • master: 192.168.1.101 (作为 Master 节点)

    • worker1: 192.168.1.102 (作为 Worker 节点)

    • worker2: 192.168.1.103 (作为 Worker 节点)

  • 软件版本:

    • Java: OpenJDK 1.8.0_372

    • Spark: Apache Spark 3.4.1

    • Hadoop: (无需安装HDFS,Spark自带客户端库) 3.3.6


一、核心概念与架构

在开始之前,我们先简单了解下 Spark Standalone 模式的架构:

  • Master Node (主节点): 集群的“大脑”,负责整个集群的资源调度和任务分配。

  • Worker Node (从节点): 集群的“劳动力”,负责在节点上启动 Executor 进程来执行具体的计算任务,并向 Master 汇报资源情况。

  • Driver Program: 你的应用程序(比如 spark-shell 或你自己提交的 Jar 包),它创建 SparkContext,是应用执行的起点。

  • Executor: 位于 Worker 节点上的进程,负责运行具体的 Task(任务),并将数据存储在内存或磁盘中。

我们的目标就是配置一个 一主(master)两从(worker1, worker2) 的集群。


二、安装前准备 (在所有节点上操作)

以下步骤如无特别说明,需要在所有三台服务器(master, worker1, worker2)上执行

1. 配置主机名与 hosts 映射

为了方便节点间通信,我们需要配置主机名解析。

  • 设置主机名 (在每个节点上单独设置)

    bash

    # 在 master 节点执行
    hostnamectl set-hostname master
    
    # 在 worker1 节点执行
    hostnamectl set-hostname worker1
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值