spark 读取ftp_scala – 将SFTP服务器中的文件加载到spark RDD中

最新推荐文章于 2022-04-02 08:27:20 发布

weixin_39651816

最新推荐文章于 2022-04-02 08:27:20 发布

阅读量856

点赞数 1

文章标签： spark 读取ftp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39651816/article/details/111554925

版权

如何将SFTP服务器中的文件加载到spark RDD中.加载此文件后,我需要对数据执行一些过滤.该文件也是csv文件,所以请你帮我决定是否应该使用Dataframes或RDDs. 最佳答案您可以通过以下方式在程序中使用spark-sftp库：

对于Spark 2.x

Maven依赖

com.springml

spark-sftp_2.11

1.1.0

SBT依赖

libraryDependencies += "com.springml" % "spark-sftp_2.11" % "1.1.0"

与Spark shell一起使用

可以使用–packages命令行选项将此包添加到Spark.例如,要在启动spark shell时包含它：

$bin/spark-shell --packages com.springml:spark-sftp_2.11:1.1.0

Scala API

// Construct Spark dataframe using file in FTP server

val df = spark.read.

format("com.springml.spark.sftp").

option("host", "SFTP_HOST").

option("username", "SFTP_USER").

option("password", "****").

option("fileType", "csv").

option("inferSchema", "true").

load("/ftp/files/sample.csv")

// Write dataframe as CSV file to FTP server

df.write.

format("com.springml.spark.sftp").

option("host", "SFTP_HOST").

option("username", "SFTP_USER").

option("password", "****").

option("fileType", "csv").

save("/ftp/files/sample.csv")

适用于Spark 1.x(1.5)

Maven依赖

com.springml

spark-sftp_2.10

1.0.2

SBT依赖

libraryDependencies += "com.springml" % "spark-sftp_2.10" % "1.0.2"

与Spark shell一起使用

可以使用–packages命令行选项将此包添加到Spark.例如,要在启动spark shell时包含它：

$bin/spark-shell --packages com.springml:spark-sftp_2.10:1.0.2

Scala API

import org.apache.spark.sql.SQLContext

// Construct Spark dataframe using file in FTP server

val sqlContext = new SQLContext(sc)

val df = sqlContext.read.

format("com.springml.spark.sftp").

option("host", "SFTP_HOST").

option("username", "SFTP_USER").

option("password", "****").

option("fileType", "csv").

option("inferSchema", "true").

load("/ftp/files/sample.csv")

// Write dataframe as CSV file to FTP server

df.write().

format("com.springml.spark.sftp").

option("host", "SFTP_HOST").

option("username", "SFTP_USER").

option("password", "****").

option("fileType", "csv").

save("/ftp/files/sample.csv")

有关spark-sftp的更多信息,您可以访问github页面springml/spark-sftp

weixin_39651816

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark 读取ftp_scala – 将SFTP服务器中的文件加载到spark RDD中

如何将SFTP服务器中的文件加载到spark RDD中.加载此文件后,我需要对数据执行一些过滤.该文件也是csv文件,所以请你帮我决定是否应该使用Dataframes或RDDs. 最佳答案您可以通过以下方式在程序中使用spark-sftp库：对于Spark 2.xMaven依赖com.springmlspark-sftp_2.111.1.0SBT依赖libraryDependencies += ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。