Spark的安装

一、Spark简介

Spark使用Scala语言进行实现,是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集。

Spark具有运行速度快、易用性好、通用性强和随处运行等特点。

部署Spark集群大体上分为两种模式:单机模式与集群模式
大多数分布式框架都支持单机模式,方便开发者调试框架的运行环境。但是在生产环境中,并不会使用单机模式。因此,本文将介绍Spark集群的分布式安装与部署。

二、前期准备

1.需要准备三台Linux机器—— hadoop1 、 hadoop2 、 hadoop3 ,并设置好hosts文件。 三台机器上都安装好JDK8并配置好相关的环境变量。 确保三台机器可以正常使用网络。 配置好hadoop1机器到其余两台机器的单向免密登陆。

2.创建目录

mkdir -p /export/servers
 mkdir -p /export/software
 mkdir -p /export/data

三、下载Spark

1.打开Spark存档网站:https://archive.apache.org/dist/spark ,找到Spark3.5.2版本,点击下载。

2.下载Linux版本的安装文件 spark 3.5.2-bin-hadoop3.tgz ,将下载的文件上传到 hadoop1 机器的 /export/software 目录中,并在终端里切换到该目录为工作目录。

cd /export/software

四、安装Spark

1.打开hadoop1 ,执行如下指令,进行Spark的安装

tar -zvxf spark-3.5.2-bin-hadoop3.tgz -C /export/servers/

2.进入到Spark的安装目录,修改Spark的安装目录文件名为: spark-3.5.2 

mv spark-3.5.2-bin-hadoop3 spark-3.5.2

五、配置环境变量

1.编辑环境变量文件

vim /etc/profile

2.在文件底部添加如下内容

export SPARK_HOME=/export/servers/spark-3.5.2
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

3.使用 source 命令使修改的环境变量生效 

source /etc/profile

六、Spark相关配置

1.进入到 hadoop1 的 /export/servers/spark-3.5.2/conf 目录

cd /export/servers/spark-3.5.2/conf

2.复制一份spark-env.sh模板文件作为此配置文件

cp spark-env.sh.template spark-env.sh

3.使用vim工具在此文件中添加如下内容

# 配置Java环境
export JAVA_HOME=/export/servers/jdk1.8.0_241
# 指定Master的IP 
export SPARK_MASTER_HOST=hadoop1 
# 指定Master的端口 
export SPARK_MASTER_PORT=7077 
export HADOOP_HOME=/export/servers/hadoop-3.3.0 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop 

4.复制一份slaves.template模板文件作为此配置文件

cp slaves.template slaves

5.使用vim工具在直接在文件中添加slave机器的主机名

hadoop2
hadoop3 

6.在hadoop1机器上执行如下指令,将文件传输到另外两台机器上

scp -r /export/servers/spark-3.5.2/ hadoop2:/export/servers/ 
scp -r /export/servers/spark-3.5.2/ hadoop3:/export/servers/ 
scp -r /etc/profile hadoop2:/etc/ 
scp -r /etc/profile hadoop3:/etc/ 

7.分别在hadoop2,hadoop3里使用 source 命令来使环境变量生效

source /etc/profile

七、启动集群

使用如下完整路径的指令启动集群 

/export/servers/spark-3.5.2/sbin/start-all.sh

### 如何在不同操作系统上安装 Apache Spark #### 安装前准备 为了确保顺利安装 Apache Spark,在任何操作系统下都需要先确认已正确安装 Java 环境以及设置好 JAVA_HOME 变量。对于某些特定场景,可能还需要额外配置 Hadoop 或其他依赖项[^3]。 #### Mac OS 上的安装方式 利用 Homebrew 工具可以让 macOS 用户轻松完成 Spark 的部署工作。通过终端执行命令 `brew install apache-spark` 即可快速获取最新稳定版 Spark 并自动处理大部分必要的初始化操作[^1]。 #### Linux 发行版上的安装指南 大多数主流 Linux 发行版支持通过包管理器来简化软件安装流程。例如 Ubuntu/Debian 类系统可以通过 APT 软件库下载官方二进制文件;而 CentOS/RHEL 则推荐采用 yum 或者 dnf 来获得 RPM 打包好的版本。除此之外,也可以直接前往官方网站下载 tarball 文件解压至自定义路径再手动调整 PATH 参数指向 bin 目录下的工具链[^4]。 #### Windows 下的手动安装过程 Windows 用户通常会选择从官网获取预编译压缩包形式发布的 Spark 版本。解压缩之后需自行设定 SPARK_HOME 和更新系统的 Path 设置以便全局调用 spark-shell 等 CLI 实用程序。值得注意的是由于缺乏原生 POSIX 支持所以在 Win 平台上可能会遇到兼容性问题因此建议考虑借助 WSL (Windows Subsystem for Linux) 进行跨平台开发测试活动。 ```bash # 使用 Homebrew 在 MacOS 上安装 Spark $ brew install apache-spark # 在 Debian/Ubuntu 上使用 apt-get 安装 Spark $ sudo apt-get update && sudo apt-get install -y apache-spark # 在 RedHat/CentOS/Fedora 上使用 yum/dnf 安装 Spark $ sudo yum install -y epel-release $ sudo yum install -y apache-spark # 解压并设置环境变量(适用于所有平台) export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值