通过HdfsApi读取hdfs的文件夹下的多个文件

通过hdfsApi,读取某一个文件夹下的多个文件

val conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://ip:9000")
val fs: FileSystem = FileSystem.get(conf);
//读取dataCenter文件夹下的文件
var inputPath = new Path("/user/dataCenter/")
//获取到dataCenter下所有文件的状态
//这里不能直接用open(path),会报错:大概意思就是dataCenter是个文件夹,不是文件
//此种只能用于文件夹下都是文件,不存在文件嵌套的情况,若存在,需要调用listFiles方法
val fileStatus: Array[FileStatus] = fs.listStatus(inputPath)

//若存在文件夹的嵌套,调用下面这行代码,
//true:递归地遍历子目录
//val value: RemoteIterator[LocatedFileStatus] = fs.listFiles(new Path(inputPath),true)


//新建一个StringBuffer,存放文件内容(用来测试小量文件)
//val buffer: StringBuffer = new StringBuffer
var break = new Breaks
//这里创建一个文件流集合,存放所有的要读取的文件
val inputStreamlist: ListBuffer[FSDataInputStream] = ListBuffer[FSDataInputStream]()

for (elem <- fileStatus) {
      break.breakable({
      	//只要以part开头的文件
        if (!elem.getPath.getName.startsWith("part-")) {
          break.break();
        }
        val input: FSDataInputStream = fs.open(elem.getPath)
        inputStreamlist += input;
      })
    }

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值