spark读取文件夹下的文件名称

最新推荐文章于 2023-08-24 11:34:52 发布

忘川风华录

最新推荐文章于 2023-08-24 11:34:52 发布

阅读量4.8k

点赞数 1

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_36968512/article/details/84480587

版权

spark 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

我之前遇到过处理日志文件的是文件里面没有日期，日期在文件名上，后来我就上网上搜了搜，发现spark并没有对文件名有过多的解释，但是看到一些文章写的是spark对文件名的操作，领略了下，把自己的想法写出来给大家看看


  def get_hdfs_dir(input: String, sc: SparkContext): Array[String] = {
  
  //创建[LongWritable, Text, TextInputFormat]的rdd
    val fileRDD = sc.newAPIHadoopFile[LongWritable, Text, TextInputFormat](input)
   //获取hadoop的rdd
    val hadoopRDD = fileRDD.asInstanceOf[NewHadoopRDD[LongWritable, Text]]

//通过文件进行分区，然后通过不同分区来获取分区的path
    val fileAdnLine = hadoopRDD.mapPartitionsWithInputSplit((inputSplit: InputSplit, iterator: Iterator[(LongWritable, Text)]) => {
      val file = inputSplit.asInstanceOf[FileSplit]
      iterator.take(1).map(x => {
        file.getPath.toString()   //就是当前数据的所在路径
      })
    })

    val dirOut: Array[String] = fileAdnLine
      .distinct()      //可能会有很多一样的path，进去去重操作
      .coalesce(1)

      // val array: Array[List[Char]] = fileAdnLine    //这里面存放的就是path
      .map(lines => {
      lines.toString  
    })
      .collect()
    dirOut    //dirOut    是一个Array类型的数据里面存放的就是传入文件夹下的路径
  }

忘川风华录

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark读取文件夹下的文件名称

我之前遇到过处理日志文件的是文件里面没有日期，日期在文件名上，后来我就上网上搜了搜，发现spark并没有对文件名有过多的解释，但是看到一些文章写的是spark对文件名的操作，领略了下，把自己的想法写出来给大家看看 def get_hdfs_dir(input: String, sc: SparkContext): Array[String] = { //创建[LongWritabl...
复制链接

扫一扫

专栏目录