spark 笔记(一) stand alone 和yarn-cluster的部分区别

本文记录了将Spark集群从standalone模式迁移到YARN模式时遇到的调整,主要对比了两种模式下提交任务的shell命令。standalone模式中,driver固定,文件读取类似于本地操作;而在YARN-cluster模式中,driver由YARN分配,需通过--files上传文件,并使用文件名而非全路径读取,否则会导致文件找不到的异常。此外,调整`spark.hadoop.mapreduce.input.fileinputformat.split.minsize`参数可避免过多的小文件产生。
摘要由CSDN通过智能技术生成

    公司最近的spark集群由原来的standalone迁移到spark on yarn了,在迁移相关的程序时,发现调整还是有一些的,以下分别是两个版本提交的部分shell命令,从命令可以看出其区别,这个区别主要是spark on yarn的工作方式不太一样,造成提交的方式也不太一样。

    standalone方式的脚本为:


    yarn-cluster方式的脚本为:

    碰到的问题其中一个就是文件读写的方法不一致, standalone由于driver是固定的ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值