Spark on Yarn集群搭建详细过程

最新推荐文章于 2025-03-03 02:14:48 发布

Fang20160214

最新推荐文章于 2025-03-03 02:14:48 发布

阅读量3.6w

点赞数 27

文章标签： spark 大数据集群 yarn 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010638969/article/details/51283216

版权

本文介绍了如何在3台机器上搭建Spark on Yarn集群，包括配置hosts、安装Java、Scala、Hadoop和Spark，以及启动和验证集群的过程。详细步骤包括设置SSH免密码登录、安装Java 1.8、Scala 2.10.6，配置Hadoop 2.7.2，启动Hadoop和Spark，并通过SparkPi示例验证安装成功。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由于最近学习大数据开发，spark作为分布式内存计算框架，当前十分火热，因此作为首选学习技术之一。Spark官方提供了三种集群部署方案： Standalone, Mesos, Yarn。其中 Standalone 为spark本身提供的集群模式，搭建过程可以参考官网，本文介绍Spark on Yarn集群部署过程。使用3台普通机器搭建Spark集群，

软件环境：

Ubuntu 16.04 LTS

Ubuntu 16.04 LTS

CentOS7

Scala-2.10.6

Hadoop-2.7.2

spark-1.6.1-bin-hadoop2.6

Java-1.8.0_77

硬件环境：

一个Master节点

Intel® Core™ i5-2310 CPU @ 2.90GHz × 4

4G内存

300G硬盘

两个Slave节点

Intel® Core™ i3-2100 CPU @ 3.10GHz × 4

4G内存

500G硬盘

一、配置/etc/hosts及免密码登录

本文下载安装的软件都放在 home 目录下。

1. 主机hosts文件配置

在每台主机上修改host文件

sudo vim /etc/hosts

218.199.92.227 fang-ubuntu1(Master)

218.199.92.226 fang-centos(Slave)

218.199.92.225 fang-Lenovo(Slave)

127.0.0.1 localhost

127.0.1.1 localhost

注：若此地未配置，或者未配置正确会导致集群启动不正常或者失败(nodemanager did not stop gracefully after 5 seconds )

配置之后ping一下各机器名称检查是否生效，例如ssh fang@fang-centos。

2. 配置SSH 免密码登录

如果没有安装ssh，需要安装Openssh server，命令为sudo apt-get install openssh-server。

1) 在所有机器上都生成私钥和公钥

ssh-keygen -t rsa #一路回车

2) 需要让机器间都能相互访问，就把每个机子上的id_rsa.pub发给master节点，传输公钥可以用scp来传输。

scp ~/.ssh/id_rsa.pub fang@fang-ubuntu1:~/.ssh/id_rsa.pub.slave1

3) 在master

最低0.47元/天解锁文章

评论 14

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。