Spark一次性读取指定目录下的所有子目录(嵌套)下的所有文件(pyspark语言为例子)
sc = spark.sparkContext
rdd = sc.textFile("/file/*/part-*")
举例:
当前目录:
每个目录下都有test.gz文件,那么一次性读取所有文件数据到rdd的代码如下:
if __name__ == '__main__':
spark = SparkSession.builder \
.master("local[2]") \
.appName("cal person") \
.getOrCreate()
sc = spark.sparkContext
rdd = sc.textFile("D:\\test\\4e160153-b25f-4dad-97c1-d14686047219\\*\\test.gz")
print(rdd.count())
结果可以正常获取所有数据