Standalone模式的Spark集群的安装部署【详细教程】

前言:

        Apache Spark作为当下最流行的大数据处理框架之一,凭借其高效的内存计算和丰富的API接口,广泛应用于实时数据处理、机器学习和图计算等领域。对于初学者和开发者而言,快速搭建一个Spark集群是进行学习和实验的重要步骤。

        在众多部署模式中,独立模式(Standalone)是最为简单和直观的一种。它不需要依赖其他资源管理器(如Hadoop YARN或Mesos),只需几台机器即可轻松搭建一个完整的Spark集群。这种模式非常适合用于学习、测试和小规模生产环境。

        本文将详细介绍如何在多台机器上搭建一个独立模式的Spark集群。我们将从环境准备开始,逐步讲解如何配置Spark,以及如何启动集群。希望通过这篇文章,能够帮助大家顺利搭建自己的Spark集群,为后续的大数据处理和分析工作打下坚实的基础。

一、前期工作准备

下面这篇博客有详细讲解:

Hadoop完全分布式集群的搭建【详细教程】-CSDN博客icon-default.png?t=O83Ahttps://blog.csdn.net/qq_63834914/article/details/142692094?spm=1001.2014.3001.5501

二、Standalone模式的安装部署

1.上传并解压软件包

tar -zxvf spark软件包

2.配置Spark环境变量(我这里是用户环境变量)

vim ~/.bash_profile

3.配置Spark核心配置文件

3.1 配置spark-defaults.conf文件(该文件在spark文件夹下的conf文件夹下,需要通过模板文件拷贝重命名获得)
#拷贝命令
cp spark-defaults.conf.template spark-defaults.conf

#编辑命令
vim ./spark-3.4.2-bin-hadoop3/conf/spark-defaults.conf

3.2 配置spark-env.sh文件(该文件也在conf下,也需要通过里面的模板进行拷贝并重新命名获得)
#拷贝命令
cp spark-env.sh.template spark-env.sh

#编辑命令
vim ./conf/spark-env.sh

3.3 配置workers文件(该文件也在conf下,也需要通过模板获得)
#拷贝命令
cp workers.template workers

#编辑命令
vim ./conf/workers

4.分发配置好的spark环境变量和spark到另外的两个节点

#环境变量
scp -r ~/.bash_profile hd@node2/3:~/

#spark -- 路径根据自己的来
scp -r ./spark文件夹 hd@node2/3:~/software/

5.启动Spark集群

#启动命令
sbin/start-all.sh

#关闭命令
sbin/stop-all.sh

#查看进程
jps

6.查看集群启动后Web UI页面(IP换成自己的IP地址)

到此,便完成了Standalone模式的Spark集群部署!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值