前言:
Apache Spark作为当下最流行的大数据处理框架之一,凭借其高效的内存计算和丰富的API接口,广泛应用于实时数据处理、机器学习和图计算等领域。对于初学者和开发者而言,快速搭建一个Spark集群是进行学习和实验的重要步骤。
在众多部署模式中,独立模式(Standalone)是最为简单和直观的一种。它不需要依赖其他资源管理器(如Hadoop YARN或Mesos),只需几台机器即可轻松搭建一个完整的Spark集群。这种模式非常适合用于学习、测试和小规模生产环境。
本文将详细介绍如何在多台机器上搭建一个独立模式的Spark集群。我们将从环境准备开始,逐步讲解如何配置Spark,以及如何启动集群。希望通过这篇文章,能够帮助大家顺利搭建自己的Spark集群,为后续的大数据处理和分析工作打下坚实的基础。
一、前期工作准备
下面这篇博客有详细讲解:
二、Standalone模式的安装部署
1.上传并解压软件包
tar -zxvf spark软件包
2.配置Spark环境变量(我这里是用户环境变量)
vim ~/.bash_profile
3.配置Spark核心配置文件
3.1 配置spark-defaults.conf文件(该文件在spark文件夹下的conf文件夹下,需要通过模板文件拷贝重命名获得)
#拷贝命令
cp spark-defaults.conf.template spark-defaults.conf
#编辑命令
vim ./spark-3.4.2-bin-hadoop3/conf/spark-defaults.conf
3.2 配置spark-env.sh文件(该文件也在conf下,也需要通过里面的模板进行拷贝并重新命名获得)
#拷贝命令
cp spark-env.sh.template spark-env.sh
#编辑命令
vim ./conf/spark-env.sh
3.3 配置workers文件(该文件也在conf下,也需要通过模板获得)
#拷贝命令
cp workers.template workers
#编辑命令
vim ./conf/workers
4.分发配置好的spark环境变量和spark到另外的两个节点
#环境变量
scp -r ~/.bash_profile hd@node2/3:~/
#spark -- 路径根据自己的来
scp -r ./spark文件夹 hd@node2/3:~/software/
5.启动Spark集群
#启动命令
sbin/start-all.sh
#关闭命令
sbin/stop-all.sh
#查看进程
jps
6.查看集群启动后Web UI页面(IP换成自己的IP地址)
到此,便完成了Standalone模式的Spark集群部署!