spark-submit使用yarn cluster模式时如何获取applicationId?

 

 

 

问题描述

在自动化的项目中,需要将spark-submit程序包装起来,通过c语言或者shell来调用,因为需要记录日志,即需要知道每次提交的spark的程序的applicationId, 将其记录。spark程序是使用yarn cluster模式提交的,因此driver在集群中的任意机子,无法确定。

什么是applicationId

applicationId是Spark应用程序的唯一标识符。根据不同的提交模式,通常有以下两种格式

  • local模式下,一般以local- 开头,例如 local-1433865536131
  • yarn模式下,则以application_开头,例如application_1433865536131_34483
解决方法
  1. 在spark编写的程序中获得,然后可以写到对应的HDFS文件上或通过邮件通知,但这个并不是很符合我的需求。
    例子如下:
  • Python

    >>> sc._jsc.sc().applicationId()
    u'application_1433865536131_34483'
    >>> sc.applicationId 
    u'application_1433865536131_34483'
    >>> #以上两种方法都可以。
    
  • Scala

    scala> sc.applicationId
    res0: String = application_1433865536131_34483
    
  1. 在spark-submit后, 捕捉stdout/stderr,然后解析固定的pattern获取applicationId。
    例如解析标准输出中的 Yarn Application id: application_1433865536131_34483

参考资料
spark-yarn-mode-how-to-get-applicationid-from-spark-submit)

 

转载于:https://www.cnblogs.com/lestatzhang/p/10611318.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值