Spark submit deploy_mode cluster 中的第三方JAR包

本文探讨了为何在Spark集群部署中选择cluster模式,包括--supervise参数支持、避免driver集中等问题。然而,cluster模式在处理第三方JAR包时存在挑战,由于driver节点的不确定性导致类找不到异常。文章指出,尽管可以通过--packages、--jars等参数传递JAR,但在cluster模式下不适用。社区建议构建包含所有依赖的“assemble jar”。解决办法是将第三方库代码整合进作业JAR包,例如使用gradle shadow插件来构建。
摘要由CSDN通过智能技术生成

为什么要使用cluster模式

Spark可以向集群中提交作业,一般生产运营环境我们多建议使用cluster模式向集群提交作业。(和client模式的区别请自行百度)。


理由有四:

1. cluster模式支持 --supervise 参数 

 Spark standalone or Mesos with cluster deploy mode only:

  --supervise                 If given, restarts the driver on failure.


2. client模式往往需要配合nohup等命令才能保证应用在后台运行,比较麻烦。


3. 提交作业的往往都是同一台机器,将所有driver集中到一个节点的做法不是很明智。


4. 大公司往往只开放YARN平台,Driver和Yarn集群如果不在同一个网段,网络通信带来的影响是巨大的,如果Driver也运行在YARN里就好多了。


cluster也有问题


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值