搭建spark yarn 模式的集群

Eternity......

于 2025-05-06 15:03:00 发布

阅读量252

点赞数 3

文章标签：大数据 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_82393285/article/details/147739646

版权

搭建Spark YARN模式集群步骤

1. 环境准备

系统：采用Linux系统（如Ubuntu、CentOS ），借助ntp实现节点间时间同步，关闭防火墙及SELinux。

Java：安装JDK 8及以上版本，配置JAVA_HOME环境变量。

Hadoop：部署包含HDFS和YARN的Hadoop集群，配置HADOOP_HOME和PATH环境变量。

2. 安装Spark

下载：从Spark官网下载适配Hadoop版本的二进制包，解压至各节点。

环境变量配置：在~/.bashrc中添加 export SPARK_HOME=/path/to/spark 和 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin ，并执行 source ~/.bashrc 刷新配置。

3. 配置Spark on YARN

文件修改：在 $SPARK_HOME/conf 目录下，将spark - env.sh.template复制为spark - env.sh ，slaves.template复制为slaves 。在spark - env.sh中添加 export HADOOP_CONF_DIR=/path/to/hadoop/conf 和 export YARN_CONF_DIR=/path/to/hadoop/conf （指向Hadoop配置目录）；在slaves文件中按每行一个的格式列出所有Worker节点的主机名或IP 。

配置分发：利用scp或rsync等工具，将Spark目录及配置文件复制到所有节点。

4. 启动集群

启动Hadoop：依次执行 start - dfs.sh 启动HDFS ， start - yarn.sh 启动YARN。

启动Spark Worker：在Master节点执行 start - slaves.sh ，通过访问YARN界面（默认端口8088 ）查看节点状态。

5. 验证任务

执行 spark - submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark - examples*.jar 10 提交示例任务测试，可通过YARN界面或相关命令查看任务日志。

注意事项

通过 --executor - memory 和 --executor - cores 参数调整任务资源；若需实现高可用（HA），需配置ZooKeeper和多Master节点。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。