Spark on YARN环境部署

前言

前面我们安装了StandAlone HA模式的spark,但在企业中,最为常用的spark模式是Spark on YARN,如果你已经安装了StandAlone HA,不用担心Spark on YARN的部署需要从头来过,因为它的配置比较简单,所需要的部署条件在 StandAlone模式 就已经满足了。

Spark on YARN部署前提条件:

1. YARN 集群正确安装
2. 具备Spark客户端工具,如spark-submit
3. 具备待提交的代码程序,如官方示例 或 自行开发的程序

如果你是没有部署过StandAlone模式 或 是干净的没有安装过spark的环境,想直接部署Spark on YARN,参考这篇文章即可:
Spark on YARN环境部署(完整版)

一、环境变量

只需要确保spark-env.sh文件里,有 HADOOP_CONF_DIRYARN_CONF_DIR 这两个环境变量即可,这一步在之前的StandAlone环境部署时,就已经设置好了。
在这里插入图片描述

二、连接YARN

连接方式还是之前的那几种,pyspark、spark-shell、spark-submit等,我这里以pyspark为例。

#yarn模式启动pyspark
bin/pyspark --master yarn

在这里插入图片描述
根据返回信息,我们查看一下监控页面

8088是yarn的web UI页面,可以看到刚才启动的pyspark
在这里插入图片描述
运行的程序,在提交任务之后,4040端口就能被正常访问,这里我们提交一个任务来检验4040端口

sc.parallelize([1,2,3,4,5]).map(lambda x: x*10).collect()

在浏览器上输入node1:4040,得到以下结果
在这里插入图片描述
当回车之后,端口号就变为了node1:8088,这不是我们地址输入错了,而是当我们输入4040时,yarn的自动跳转机制(webproxyserver服务)帮我们将页面跳转到Application Master页面上,这也侧面验证了我们的spark是运行在yarn上的。

此外,我们也可以不输入node1:4040,直接在8088页面上的右下角,点击如图按钮,也能跳转到刚才的页面。
在这里插入图片描述
当我们把pyspark结束后,再刷新查看此页面,就成了以下效果,内容很详细
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于Spark on YARN集群部署,您可以按照以下步骤进行操作: 1. 首先,确保已经安装和配置好Hadoop和YARN集群。确保YARN ResourceManager和NodeManager正在运行,并且集群配置正确。 2. 下载Spark二进制文件并解压缩到每个节点上。确保在所有节点上使用相同的Spark版本。 3. 在Spark的conf目录中,创建一个名为spark-env.sh的文件,并设置以下参数: ``` export HADOOP_CONF_DIR=<Hadoop配置目录> export YARN_CONF_DIR=<YARN配置目录> ``` 将 `<Hadoop配置目录>` 替换为Hadoop配置文件所在的目录路径,将 `<YARN配置目录>` 替换为YARN配置文件所在的目录路径。 4. 在Spark的conf目录中,打开spark-defaults.conf文件,并添加以下参数: ``` spark.master yarn spark.submit.deployMode cluster ``` 5. 根据您的需求,可以根据集群规模和资源分配需求,调整以下参数: ``` spark.executor.memory spark.executor.cores spark.executor.instances ``` 6. 您还可以根据需要设置其他SparkYARN相关的参数,如队列设置、日志级别等。 7. 在启动Spark应用程序之前,确保您的环境变量中包含Spark和Hadoop的bin目录。您可以将这些目录添加到PATH环境变量中。 8. 使用以下命令提交Spark应用程序: ``` ./bin/spark-submit --class <main-class> --master yarn --deploy-mode cluster <application-jar> [application-arguments] ``` 将 `<main-class>` 替换为您的应用程序的主类,将 `<application-jar>` 替换为您的应用程序的JAR文件路径。 9. Spark提交应用程序后,YARN将为您的应用程序启动相应的Executor,并将资源分配给它们。您可以使用YARN的Web界面或命令行工具来监视和管理Spark应用程序。 请注意,这只是Spark on YARN集群部署的基本步骤,您可能需要根据您的特定环境和需求进行一些调整和配置。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值