136、Spark核心编程进阶之spark-submit配置第三方依赖

使用spark-submit脚本提交spark application时,application jar,还有我们使用--jars命令绑定的其他jar,都会自动被发送到集群上去

spark支持以下几种URL来指定关联的其他jar
file: 是由driver的http文件服务提供支持的,所有的executor都会通过driver的HTTP服务来拉取文件
hdfs:,http:,https:,ftp:,这种文件,就是直接根据URI,从指定的地方去拉取,比如hdfs、或者http链接、或者ftp服务器
local: 这种格式的文件必须在每个worker节点上都要存在,所以不需要通过网络io去拉取文件,这对于特别大的文件或者jar包特别适用,可以提升作业的执行性能

--jars,比如,mysql驱动包,或者是其他的一些包

文件和jar都会被拷贝到每个executor的工作目录中,这就会占用很大一片磁盘空间,因此需要在之后清理掉这些文件
在yarn上运行spark作业时,依赖文件的清理都是自动进行的
适用standalone模式,需要配置spark.worker.cleanup.appDataTtl属性,来开启自动清理依赖文件和jar包

用户还可以通过在spark-submit中,使用--packages,绑定一些maven的依赖包
此外,还可以通过--repositories来绑定过一些额外的仓库
但是说实话,这两种情况还的确不太常见

--files,比如,最典型的就是hive-site.xml配置文件

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值