spark读取多个目录下多个文件

最新推荐文章于 2022-02-11 15:06:57 发布

weixin_42412645

最新推荐文章于 2022-02-11 15:06:57 发布

阅读量8.6k

点赞数 2

分类专栏： Spark 文章标签： SparkSQL 多目录多文件

本文链接：https://blog.csdn.net/weixin_42412645/article/details/96486264

版权

Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近项目要用准时数据，于是改用sparkSQL还对数据进行统计。kafka落到HDFS上是按照天分区，小时文件。
HDFS上的目录结构如下:
A/20190101/2019010100 A/20190101/2019010101
B/20190101/2019010100 B/20190101/2019010101
方法1：使用sparkContext.read.text(paths=[path1, path2, …])方法
val inputPath: List[String] = List(“A/20190101/2019010100”,“A/20190101/2019010101”,“B/20190101/2019010100”,“B/20190101/2019010101”)
val result=spark.sparkContext.textFile(inputpath.mkString(","))
方法2：
val A1=spark.sparkContext.textFile(“A/20190101/2019010100”)
val A2=spark.sparkContext.textFile(“A/20190101/2019010101”)
val B1=spark.sparkContext.textFile(“B/20190101/2019010100”)
val B2=spark.sparkContext.textFile(“B/20190101/2019010101”)
val result=A1.union(A2).union(B1).union(B2)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_42412645

关注关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
spark读取多个目录下多个文件

最近项目要用准时数据，于是改用sparkSQL还对数据进行统计。kafka落到HDFS上是按照天分区，小时文件。HDFS上的目录结构如下:A/20190101/2019010100 A/20190101/2019010101B/20190101/2019010100 B/20190101/2019010101方法1：使用sparkContext.read.text(paths=[p...
复制链接

扫一扫