Spark addFile()和hdfs上传文件对比

最新推荐文章于 2023-09-17 01:10:23 发布

jin_tmac

最新推荐文章于 2023-09-17 01:10:23 发布

阅读量1.1k

点赞数 2

分类专栏： Spark 机器学习与数据挖掘文章标签： hdfs spark hadoop

本文链接：https://blog.csdn.net/jin_tmac/article/details/126014279

版权

机器学习与数据挖掘同时被 2 个专栏收录

27 篇文章 1 订阅

订阅专栏

Spark

6 篇文章 0 订阅

订阅专栏

在用spark进行集群分布式模型打分等操作时，通常需要把模型文件或者自定义类d等文件上传，文件上传后，我们可以在Worker的工作节点中通过SparkFiles.get函数获取上次文件后的文件路径。可以有两种方式上传文件:sc.addFile和hdfs 上。
1、sc.addFile()

spark = SparkSession.builder.config(conf=conf).enableHiveSupport().getOrCreate()
sc = spark.sparkContext
sc.addFile("/fintech/jinxb/model_V202207_long.tar.gz")

这个方式适用于比较小的模型文件，如果模型文件比较大（这个界限不确定，我使用的集群200M的文件可以成功，700M的就失败），可能会出现节点网络通信等问题
在这里插入图片描述
2、上传hdfs进行配置
首先将模型文件上传至hdfs

hdfs dfs -put model_V202207_long.tar.gz

然后在spark-submit 处增加

--files hdfs://nameservice1/user/$USER/model_V202207_long.tar.gz

就可以在各个集群节点通过SparkFiles.get()正常访问到模型文件了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jin_tmac

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark上传数据到hdfs的不同路径中的实现

m0_67549504的博客

02-09

711

Spark上传数据到hdfs的不同路径中的实现

【Spark-HDFS小文件合并】使用 Spark 实现 HDFS 小文件合并

最新发布

weixin_53543905的博客

12-26

1533

需求描述：1、使用 Spark 做小文件合并压缩处理。2、实际生产中相关配置、日志、明细可以记录在 Mysql 中。3、core-site.xml、hdfs-site.xml、hive-site.xml、yarn-site.xmlx 等文件放在项目的 resources 目录下进行认证。4、下面的案例抽取出了主体部分的代码，具体实现时需要结合 HDFS 工具类，利用好 Mysql 做好配置、日志、以及相关明细，结合各自业务进行文件合并。 2）代码实现 2.1.HDFSUtils 2.2.MergeFile

参与评论您还未登录，请先登录后发表或查看评论

【Pyspark】Spark导入zip文件/上传zip文件

sunflower_sara的机器学习园地

07-17

2652

Spark上传zip文件步骤一、启动spark的时候addfile zip文件 #zip文件原始路径 file_path = "./filename.zip" #启动spark spark = SparkSession.builder.appName("space_name").enableHiveSupport().getOrCreate() sc = spark.sparkContext # 添加文件到spark的空间,位于根目录下 sc.addFile(file_path) ...

Spark之本地文件上传至HDFS

绣花针

04-09

6604

例子：上传本地文件file.txt至HDFS在HDFS上创建文件夹hadoop fs -mkdir /work进入master:50070Utilities－>Browse the file system,可以看到新建的文件夹：上传文件(本地Downloads文件夹中的file.txt)至HDFS（work文件夹中）hadoop fs -put /home/mark/Downloads/f...

Spark中函数addFile和addJar函数介绍

吟啸徐行

04-04

8872

尊重作者，转载至：https://www.iteblog.com/archives/1704.html 　我们在使用Spark的时候有时候需要将一些数据分发到计算节点中。一种方法是将这些文件上传到HDFS上，然后计算节点从HDFS上获取这些数据。当然我们也可以使用addFile函数来分发这些文件。 addFile addFile方法可以接收

spark上传文件和追加文件到hdfs

星辰大数据的博客

06-30

3441

一、代码实现 package com.xtd.hdfs import java.io.File import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.{FileSystem, FileUtil, Path} import scala.collection.mutable.{ArrayBuffer, ListBuffer} object HDFSUtils { def main(args: Array[

Spark中函数addFile添加tar包

lieying的博客

11-07

889

如果想在pyspark中 import tensorflow 来调用pb模型分布式预测，那么将模型pb全部文件打包成tar包sc.addFile即可，spark会自动解析。

Spark读取hdfs文件并写入hive表中

07-15

3108

package com.job import org.apache.commons.cli.{BasicParser, CommandLine, Options} import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.types.{StringType, StructType} case class Transfer2HiveConfig(query_day: String) object Transf.

spark读取广播变量、hdfs路径下文件、addFile原理机制区别

05-25

Spark中有三种常见的方式来读取数据：广播变量、HDFS路径下文件和addFile。 1. 广播变量：广播变量是Spark用于在大规模集群上分配只读数据的机制。在Spark中，广播变量是从驱动程序向所有工作节点广播的只读变量，...

Spark读取HDFS或者AFS等文件系统文件

tianhouquan的专栏

12-30

2349

Spark读取HDFS或者AFS等文件系统文件 Spark读取文件有很多方法，我这里主要介绍一下读取非结构化的文件的两种方式，针对多文件读取，单文件读取也是一样的。方案一：spark的textFile方法，也是最简单的方案，支持通配符，简单好用 String afsFilePath="afs://afs.yun.com/app/file/*...

本地文件上传到HDFS

04-14

Hadoop HDFS的FileSystemAPI操作文件将准备好的文件上传到hdfs的user/hadoop/music文件下

如何利用spark向HDFS的目录中追加数据?

沙漏遗失了年华

07-21

1999

我们在利用spark处理存储在HDFS上的数据时经常会有这样的需求，需要不断的向同一个目录写入数据（比如，每个小时将kafka中的数据落到HDFS的同一个目录），当然这种需求有很多解决方案可以使用，今天我们所探讨的就是如何通过修改spark 数据输出组件来实现这个功能， 1.1SparkContext 这个类中、提供了多种读取HDFS上文件的API，如下代码所示: /** ...

spark和flink读取csv文件对比

bradyM的博客

05-11

785

最近总是会有需求要涉及到读取csv文件，以前总是拿到文件就去读，没有仔细去看相关的方法和功能，现在结合最近的需求，记录一下spark和flink读取csv文件的操作。（注：本文内容针对spark2.3.0以及flink1.9.1） spark：本来想自己总结一下，但是这里有位大佬写的很详细，可以直接参考： https://blog.csdn.net/weixin_42411818/article/details/98734464 举个简单的小例子，现在我们有这样一份csv文件我们只想读uuid和ph

（保姆级）Spark气象监测数据分析-步骤1.2上将处理的文件传到HDFS上

无骨鱼虎的博客

09-17

530

首先这篇博客绝对原创。读者遇到编程中的任何问题可以留言，看到了就会回复。

六十二、Spark-Standlone独立集群（上传HDFS进行测试）

01-23

861

Spark官网：(https://spark.apache.org/) Spark是一个大数据领域统一的数据分析/计算/处理引擎目录环境配置一、解压更名二、配置环境变量三、配置Spark参数四、环境测试五、提交任务六、结果查看七、查看spark任务web-ui 八、停止集群 standalone模式下的模块架构环境配置主机名 master slave1 slave2 类型 master slav..

工具类——Spark写入csv文件到HDFS（Java代码）

斯特凡今天也很帅的博客

10-26

1575

spark写入csv到hdfs

【Spark】RDD、DataFram、DataSet的比较与使用

hyj

09-20

1417

RDD、DataFram、DataSet的比较与使用

Spark 提交任务时，指定文件

搬砖小工053

07-19

2382

参数说明 file:\\ file: – 文件绝对路径，并且file:/URI是通过驱动器的HTTP文件服务器来下载的，每个执行器都从驱动器的HTTP server拉取这些文件。 hdfs:\\ hdfs:, http:, https:, ftp: – 设置这些参数后，Spark将会从指定的URI位置下载所需的文件和jar包。 local:\\ local: –local

spark sql 创建表及导入文件

11-29

1129

基于本地文件启动 $SPARK_HOME/bin/spark-sql --master spark://sparkmaster:7077 --driver-cores 1 --driver-java-options "-Dspark.driver.port=4050" 基于hdfs文件启动 ...

spark读取本地文件和hdfs文件

06-28

Spark可以通过以下两种方式读取本地文件和HDFS文件： 1. 读取本地文件可以使用SparkContext的textFile()方法读取本地文件，例如： ``` val sc = new SparkContext("local", "read local file") val rdd = sc....