addFile函数addJar函数

最新推荐文章于 2023-09-07 21:11:54 发布

一碗竹叶青

最新推荐文章于 2023-09-07 21:11:54 发布

阅读量1.4k

点赞数 1

分类专栏： BigData # SparkDataFrame 文章标签： spark 大数据 hadoop

本文链接：https://blog.csdn.net/baidu_38127162/article/details/109498103

版权

BigData 同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

SparkDataFrame

6 篇文章 0 订阅

订阅专栏

我们在使用Spark的时候有时候需要将一些数据分发到计算节点中。一种方法是将这些文件上传到HDFS上，然后计算节点从HDFS上获取这些数据。当然我们也可以使用addFile函数来分发这些文件。

addFile方法可以接收本地文件（或者HDFS上的文件），甚至是文件夹（如果是文件夹，必须是HDFS路径），然后Spark的Driver和Exector可以通过SparkFiles.get()方法来获取文件的绝对路径（Get the absolute path of a file added through SparkContext.addFile()）,addFile的函数原型如下：

def addFile(path: String): Unit
def addFile(path: String, recursive: Boolean): Unit

addFile把添加的本地文件传送给所有的Worker，这样能够保证在每个Worker上正确访问到文件。另外，Worker会把文件放在临时目录下。因此，比较适合用于文件比较小，计算比较复杂的场景。如果文件比较大，网络传送的消耗时间也会增长。

path：可以是local、hdfs（任何hadoop支持的文件系统）、HTTP、HTTPS、FTP等。local方式时，在windows下使用绝对路径时需要加个“/”，如“d:/iteblog.data”得写成“/d:/iteblog.data”或“file:///d:/iteblog.data”。

recursive：如果path是一个目录，那么我们可以设置recursive为true，这样Spark会递归地分发这个路径下面的所有文件到计算节点的临时目录。

通过SparkFiles.get(path:String)获取添加的文件路径。

// driver分发
var path = "/user/iteblog/ip.txt"
sc.addFile(path)
val rdd = sc.textFile(SparkFiles.get(path))

// Exector获取到分发的文件
var path = "/user/iteblog/ip.txt"
sc.addFile(path)
val rdd = sc.parallelize((0 to 10))
rdd.foreach{ index =>
    val path = SparkFiles.get(path)
    ......
}

addJar函数

addJar添加在这个SparkContext实例运行的作业所依赖的jar。，其函数原型如下：

def addJar(path: String)
　　path：可以是本地文件（local file）、HDFS文件（其他所有的Hadoop支持的文件系统也可以）、HTTP、 HTTPS 或者是FTP URI文件等等。

其实Spark内部通过spark.jars参数以及spark.yarn.dist.jars函数传进去的Jar都是通过这个函数分发到Task的。

参考：https://www.iteblog.com/archives/1704.html

一碗竹叶青

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
addFile函数addJar函数

https://www.iteblog.com/archives/1704.html我们在使用Spark的时候有时候需要将一些数据分发到计算节点中。一种方法是将这些文件上传到HDFS上，然后计算节点从HDFS上获取这些数据。当然我们也可以使用addFile函数来分发这些文件。addFile方法可以接收本地文件（或者HDFS上的文件），甚至是文件夹（如果是文件夹，必须是HDFS路径），然后Spark的Driver和Exector可以通过SparkFiles.get()方法来获取文件的绝对路径（Get th
复制链接

扫一扫

专栏目录