Spark on Yarn

老夫OPSO

已于 2022-05-23 11:19:35 修改

阅读量179

点赞数

分类专栏： spark 文章标签： spark hadoop big data

于 2022-05-23 10:43:26 首次发布

本文链接：https://blog.csdn.net/qq_43618208/article/details/124922952

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了如何在YARN上配置Spark客户端，包括修改yarn-site.xml和spark-env.sh，以支持yarn-client和yarn-cluster模式，并详细说明了日志查看和配置。重点在于Spark在YARN上的安装步骤和生产环境下的适用性。

摘要由CSDN通过智能技术生成

概述
Spark客户端直接连接Yarn，不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点。
yarn-client：Driver程序运行在客户端，适用于交互、调试，希望立即看到app的输出
yarn-cluster：Driver程序运行在由RM（ResourceManager）启动的AP（APPMaster）适用于生产环境。
在这里插入图片描述

安装使用
1）修改hadoop配置文件yarn-site.xml,添加如下内容：

[jinghang@hadoop102 hadoop]$ vi yarn-site.xml
        <!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
        <property>
                <name>yarn.nodemanager.pmem-check-enabled</name>
                <value>false</value>
        </property>
        <!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
        <property>
                <name>yarn.nodemanager.vmem-check-enabled</name>
                <value>false</value>
        </property>

2）修改spark-env.sh，添加如下配置：

[jinghang@hadoop102 conf]$ vi spark-env.sh

YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop
3）分发配置文件

[jinghang@hadoop102 conf]$ xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
[jinghang@hadoop102 conf]$ xsync spark-env.sh

4）执行一个程序

[jinghang@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.4.5.jar \
100



bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn-client \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

注意：在提交任务之前需启动HDFS以及YARN集群。
日志查看
1）修改配置文件spark-defaults.conf
添加如下内容：

spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080

2）重启spark历史服务

[jinghang@hadoop102 spark]$ sbin/stop-history-server.sh 
stopping org.apache.spark.deploy.history.HistoryServer
[jinghang@hadoop102 spark]$ sbin/start-history-server.sh 
starting org.apache.spark.deploy.history.HistoryServer, logging to /opt/module/spark/logs/spark-jinghang-org.apache.spark.deploy.history.HistoryServer-1-hadoop102.out

3）提交任务到Yarn执行

[jinghang@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

4）Web页面查看日志
在这里插入图片描述