Spark一次性读取多个目录(嵌套)下多个文件

Gklearlove

已于 2022-08-09 14:21:27 修改

阅读量3k

点赞数

分类专栏： Spark 文章标签： spark big data hadoop

于 2022-02-11 15:06:57 首次发布

本文链接：https://blog.csdn.net/qq_40407889/article/details/122880847

版权

Spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Spark一次性读取指定目录下的所有子目录(嵌套)下的所有文件(pyspark语言为例子)

sc = spark.sparkContext
rdd = sc.textFile("/file/*/part-*")

举例：

当前目录：

在这里插入图片描述

每个目录下都有test.gz文件，那么一次性读取所有文件数据到rdd的代码如下：

if __name__ == '__main__':
   spark = SparkSession.builder \
      .master("local[2]") \
      .appName("cal person") \
      .getOrCreate()

   sc = spark.sparkContext
   rdd = sc.textFile("D:\\test\\4e160153-b25f-4dad-97c1-d14686047219\\*\\test.gz")
   print(rdd.count())

结果可以正常获取所有数据

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Gklearlove

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark一次性读取多个目录(嵌套)下多个文件

Spark一次性读取指定目录下的所有子目录(嵌套)下的所有文件(pyspark语言为例子)sc = spark.sparkContextrdd = sc.textFile("/file/*/part-*")举例：当前目录：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hdvK2g4M-1644562997368)(C:\Users\guokai02\AppData\Roaming\Typora\typora-user-images\image-2022021115
复制链接

扫一扫