禁用共享jar包上传,加快任务启动

禁用共享jar包上传,加快任务启动

发现启动spark-sql的时候比较慢,肿么了?平时为减少一堆信息干扰,console没有设置INFO级别,需要改回去看看怎么回事。
vi log4j.properties
log4j.rootCategory=WARN, console
改成
log4j.rootCategory=INFO, console
发现了,一个280M的共享jar包每次启动都上传一次。天哪!!!!
插图:


于是搜到:
Spark优化:禁止应用程序将依赖的Jar包传到HDFS
http://www.iteblog.com/archives/1173

vi spark-defaults.conf
spark.yarn.jar=hdfs://mycluster/user/spark/lib/spark-assembly-1.5.0-cdh5.5.0-hadoop2.6.0-cdh5.5.0.jar
修改后,再次观察:重要的一条看到了。。。
Source and destination file systems are the same. Not copying hdfs://mycluster/user/spark/lib/spark-assembly-1.5.0-cdh5.5.0-hadoop2.6.0-cdh5.5.0.jar
省去这个上传动作,快多了。

插图:


看看“Environment”,有新发现,相比之前多了一个spark.yarn.jar属性。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值