打印（获取）HDFS路径下所有的文件名（包括子目录下的）

董可伦

已于 2022-07-23 11:04:26 修改

阅读量1.7w

点赞数 1

分类专栏： scala 大数据文章标签： hdfs spark big data

于 2018-11-21 00:16:52 首次发布

本文链接：https://blog.csdn.net/dkl12/article/details/84312307

版权

本文记录如何利用Hadoop API获取HDFS路径下包括子目录的所有文件名，以解决需要在Spark中处理的需求。提供了测试路径和完整代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站：https://www.captainai.net/dongkelun

前言

自己有个需求，如题，需要获取HDFS路径下所有的文件名，然后根据文件名用Spark进行后续操作。想了一下用Spark好像不太容易获取到，还要递归的去获取子目录下的文件名，于是查了一下，最后用Hadoop的API搞定，这里记录下，方便以后会用到。

1、数据

测试路径：/tmp/dkl，全路径名hdfs://ambari.master.com:8020/tmp/dkl

用hadoop的命令查看一下，该路径下都有哪些文件和文件夹

hadoop fs -ls /tmp/dkl

附图：

2、完整代码

不多做解释了，直接看代码和结果吧(稍微封装了一下,有其它需求可以参考改写)

package com.dkl.leanring.spark.hdfs

import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileUtil;
import scala.collection.mutable.ArrayBuffer

/**
 * 主要目的是打印某个hdfs目录下所有的文件名，包括子目录下的
 * 其他的方法只是顺带示例，以便有其它需求可以参照改写
 */
object FilesList {
   

  def main(args: Array[String]