1.原因
在测试中,使用livy去运行spark程序,采用代码片段的方式。但是应用在启动的时候,会把本地的jar文件上传到hdfs,然后再从hdfs分发到其它的运算节点,这个很影响性能。
可以在spark的配置文件spark-defaults.conf配置如下内容

2.配置之后,应用等待时间,明显降低。
第二个参数,主要是删除应用jar的缓存,防止应用过多,占用hdfs存储。
/user/{用户}/.sparkStaging 这个目录下,一般作为应用jar包的缓存目录.
下面除了标出的红线,都是livy的jar包

本地指定节点的jar包依赖。spark缓存使用的filecache.
