通过hdfsApi,读取某一个文件夹下的多个文件
val conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://ip:9000")
val fs: FileSystem = FileSystem.get(conf);
//读取dataCenter文件夹下的文件
var inputPath = new Path("/user/dataCenter/")
//获取到dataCenter下所有文件的状态
//这里不能直接用open(path),会报错:大概意思就是dataCenter是个文件夹,不是文件
//此种只能用于文件夹下都是文件,不存在文件嵌套的情况,若存在,需要调用listFiles方法
val fileStatus: Array[FileStatus] = fs.listStatus(inputPath)
//若存在文件夹的嵌套,调用下面这行代码,
//true:递归地遍历子目录
//val value: RemoteIterator[LocatedFileStatus] = fs.listFiles(new Path(inputPath),true)
//新建一个StringBuffer,存放文件内容(用来测试小量文件)
//val buffer: StringBuffer = new StringBuffer
var break = new Breaks
//这里创建一个文件流集合,存放所有的要读取的文件
val inputStreamlist: ListBuffer[FSDataInputStream] = ListBuffer[FSDataInputStream]()
for (elem <- fileStatus) {
break.breakable({
//只要以part开头的文件
if (!elem.getPath.getName.startsWith("part-")) {
break.break();
}
val input: FSDataInputStream = fs.open(elem.getPath)
inputStreamlist += input;
})
}