spark引用jar包_Spark任务提交后都干了些什么?

3486bc63e9d82b29612c438d7325ac24.png

导读最近做了一个Spark小任务,在client模式下运行没问题,但是换了cluster模式就会出现一些第三方包找不到的问题。这是由于集群只在堡垒机中放了大部分的资源和jar包,而其他的如数据节点等节点中缺少这些包,因此需要将这些jar包也动态传到数据节点。如何使项目能够获取上传到hdfs的第三方依赖,这就需要了解spark任务提交后,第三方依赖包以及spark程序、环境配置等资源都到了哪里,然后又经过了那些环节。通过调试和总结,本文来进一步梳理spark任务提交后,这些资源jar包等都到了哪里,怎么被运行。

作者:小舰 中国人民大学计算机硕士

来源:DLab数据实验室(ID:rucdlab)

Spark提交后都干了些什么?
下图就是Spark通过client提交后,详细的运行情况(注:部署模式为yarn-cluster模式)。如果不太了解部署模式,可以看一下上一篇文章 部署模式与运行机制 。
229eb522a80c61492191929c5a7c2213.png

spark任务提交后,主要分为三个阶段,下面来详细说明。

556b60cb6250cc03519a39dedd0b2d7e.png

总结

通过这篇文章,我们应该又多了一个spark任务运行调试小技巧,就是可以去相应的hdfs目录来查看该目录下的资源、配置以及依赖包是否齐全,然后进一步分析程序运行的一些异常。

例如下面这样,我们可以发现这个application没有提交第三方jar包,只是提交了spark的配置文件。

f7a4189876f52318e7b94c3412aef541.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值