Spark读取文件

1.textFile:
其定义为:def textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String];从HDFS,本地或者任何Hadoop支持的文件系统URI读取文件,返回String RDD。
2.wholeTextFiles:
其定义为:def wholeTextFiles(path: String, minPartitions: Int = defaultMinPartitions): RDD[(String, String)];例如,有下列文件:
hdfs://a-hdfs-path/part-00000
hdfs://a-hdfs-path/part-00001

hdfs://a-hdfs-path/part-nnnnn
读取:
val rdd = sparkContext.wholeTextFile(“hdfs://a-hdfs-path”)
之后RDD所包含的内容:
(a-hdfs-path/part-00000, its content)
(a-hdfs-path/part-00001, its content)

(a-hdfs-path/part-nnnnn, its content)
3.binaryFiles:
用于读取二进制文件,跟wholeTextFiles的用法相同。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值