Spark系列之SparkSubmit提交任务到YARN


title: Spark系列


第十三章 SparkSubmit提交任务到YARN

13.1 SparkSubmit提交的一些参数解释

local 本地单线程
local[K] 本地多线程(指定K个内核)
local[*] 本地多线程(指定所有可用内核)
spark://HOST:PORT 连接到指定的 Spark standalone cluster master,需要指定端口。
mesos://HOST:PORT 连接到指定的 Mesos 集群,需要指定端口。
yarn-client客户端模式 连接到 YARN 集群。需要配置 HADOOP_CONF_DIR。
yarn-cluster集群模式 连接到 YARN 集群。需要配置 HADOOP_CONF_DIR。

13.2 提交任务到本地运行

本地模式,不启动spark集群也能运行。

$SPARK_HOME/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[4] \
--driver-memory 512M \
--executor-memory 512M \
--total-executor-cores 1 \
$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.2.jar \
10

实际可运行命令:

/software/spark/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[4] \
--driver-memory 512M \
--executor-memory 512M \
--total-executor-cores 1 \
/software/spark/examples/jars/spark-examples_2.12-3.1.2.jar \
10

运行截图:

在这里插入图片描述

结果截图:

在这里插入图片描述

13.3 提交任务到Spark集群运行

需要启动Spark的StandAlone集群来运行。

$SPARK_HOME/sbin/start-all.sh
$SPARK_HOME/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop10:7077 \
--driver-memory 512M \
--executor-memory 512M \
--total-executor-cores 1 \
$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.2.jar \
100

13.4 提交到YARN集群,使用yarn-client模式

$SPARK_HOME/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
--driver-memory 512M \
--executor-memory 512M \
--total-executor-cores 1 \
$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.2.jar \
10

直接提交可能会报错:

Exception in thread "main" org.apache.spark.SparkException: When running with
master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the
environment.
	at
org.apache.spark.deploy.SparkSubmitArguments.error(SparkSubmitArguments.scala:657)
	at
org.apache.spark.deploy.SparkSubmitArguments.validateSubmitArguments(SparkSubmitArguments.scala:290)
	at
org.apache.spark.deploy.SparkSubmitArguments.validateArguments(SparkSubmitArguments.scala:251)
	at org.apache.spark.deploy.SparkSubmitArguments.<init>
(SparkSubmitArguments.scala:120)
	at org.apache.spark.deploy.SparkSubmit$$anon$2$$anon$1.<init>
(SparkSubmit.scala:907)
at
org.apache.spark.deploy.SparkSubmit$$anon$2.parseArguments(SparkSubmit.scala:907
)
	at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:81)
	at
org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:920)
	at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:929)
	at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

13.5 提交到YARN集群,使用yarn-cluster模式

$SPARK_HOME/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 512M \
--executor-memory 512M \
--total-executor-cores 1 \
$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.2.jar \
10

13.6 提交spark任务到YARN集群时,要求配置

spark-env.sh中:

export HADOOP_CONF_DIR=/home/bigdata/apps/hadoop-3.2.2/etc/hadoop/

spark-defaults.conf中:

spark.yarn.jars /home/bigdata/apps/hadoop-3.2.2/share/hadoop/yar

如若不生效,则直接拷贝 yarn-site.xml 文件到 $SPARK_HOME 中
上述任务在启动的时候,有可能会出现异常, 修改hadoop集群的yarn-site.xml文件, 增加如下配置:

<property>
	<name>yarn.nodemanager.vmem-pmem-ratio</name>
	<value>4</value>
	<description>Ratio between virtual memory to physical memory when setting memory limits for containers</description>
</property>
<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true,实际开发中设置成 true,学习阶段设置成 false -->
<property>
	<name>yarn.nodemanager.pmem-check-enabled</name>
	<value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true,实际开发中设置成 true,学习阶段设置成 false -->
<property>
	<name>yarn.nodemanager.vmem-check-enabled</name>
	<value>false</value>
	<description>Whether virtual memory limits will be enforced for containers</description>
</property>


声明:
        文章中代码及相关语句为自己根据相应理解编写,文章中出现的相关图片为自己实践中的截图和相关技术对应的图片,若有相关异议,请联系删除。感谢。转载请注明出处,感谢。


By luoyepiaoxue2014

B站: https://space.bilibili.com/1523287361 点击打开链接
微博地址: http://weibo.com/luoyepiaoxue2014 点击打开链接

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要将作业提交到CDH6.3.2的YARN集群上,需要使用以下命令: ``` spark-submit --master yarn --deploy-mode client --class <main-class> <application-jar> <application-arguments> ``` 其中,`<main-class>`是你的应用程序的主类,`<application-jar>`是你的应用程序的jar包路径,`<application-arguments>`是你的应用程序的参数。 例如,如果你的应用程序的主类是`com.example.MyApp`,jar包路径是`/path/to/myapp.jar`,应用程序需要传递两个参数`arg1`和`arg2`,则提交作业的命令如下: ``` spark-submit --master yarn --deploy-mode client --class com.example.MyApp /path/to/myapp.jar arg1 arg2 ``` 提交作业后,Spark将在YARN集群上启动应用程序,并将日志输出到YARN的应用程序日志中。你可以使用YARN的命令行工具或Web UI来监视应用程序的运行状态和日志输出。 ### 回答2: 在CDH6.3.2框架中,使用spark-submit命令可以将作业提交YARN资源管理器,实现分布式部署执行作业的功能。 具体步骤如下: 1. 在终端中使用spark-submit命令,指定主类名、执行参数等信息。 例如: ```bash spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ --num-executors 3 \ --driver-memory 4g \ --executor-memory 2g \ --executor-cores 2 \ /path/to/examples.jar 100 ``` --class参数指定执行的主类名,对应的jar文件已经上传至HDFS上。 --master参数指定使用YARN作为资源管理器,--deploy-mode参数指定执行模式为集群模式。 --num-executors参数指定申请的Executor个数。 --driver-memory参数指定Driver进程需要使用的内存大小,同样可以指定Executor进程的内存和核数。 2. 执行以上命令后,YARN资源管理器会为任务分配相应的资源,并启动作业执行。 3. 可以通过YARN界面查看作业的运行状况,包括Container的个数、启动时间、资源使用情况等。 4. 执行完成后,可以在日志文件和任务的输出目录中查看作业的输出结果。 总的来说,通过spark-submit命令提交作业到YARN非常方便,只需指定相应的参数即可实现作业的分布式部署,提高执行效率并节省时间。 ### 回答3: CDH 6.3.2 是包含了 Hadoop、Hive、Spark 等组件的大数据平台。要提交 Spark 作业到 YARN 集群,需要使用 spark-submit 命令。 首先,要确保已经安装了 CDH 6.3.2 和 Spark。然后,在本地编写好 Spark 作业代码,并上传到集群中的一个路径。 接下来,通过以下命令提交 Spark 作业: ``` spark-submit \ --class com.example.YourMainClass \ --master yarn \ --deploy-mode client \ --num-executors 4 \ --executor-memory 4g \ --executor-cores 2 \ /path/to/your/spark/job.jar \ arg1 arg2 ``` 其中,`--class` 参数指定主类,`--master yarn` 表示使用 YARN 集群作为 Spark 的资源管理器,`--deploy-mode client` 表示客户端模式, `--num-executors`、`--executor-memory` 和 `--executor-cores` 分别是设定 Spark 应用程序执行所需的 executor 数量、每个 executor 占用的内存和 CPU 核心数量。`/path/to/your/spark/job.jar` 是你上传的 Spark 作业包的路径,`arg1` 和 `arg2` 是你的应用程序所需要的参数。 提交成功后,Spark 应用程序就会在 YARN 上执行,输出结果会被打印到标准输出中或者存储到指定路径。 需要注意的是,提交Spark 作业路径和参数是相对于 YARN 集群上的路径和参数,而不是本地路径和参数。另外,如果采用了集群管理工具 Cloudera Manager 管理 CDH 6.3.2,也可以通过其提供的界面来提交 Spark 作业,更加方便快捷。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值