以Java操作hadoop为例,递归列出指定目录下所有子文件夹中的文件
@Test
public void testLs() throws Exception {
RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"),true);
while(listFiles.hasNext()){
}
}
如果放入集合list:
1、如果文件数量巨大,那么将全部放入运行端的内存中,运行端会吃不消。
2、而且由于list巨大,传输将消耗大量时间。
这时候就需要使用迭代器,不再返回一个list对象,而是返回一个迭代器实例对象,然后调用hasnext()判断是否有下一个数据,有的情况下再调用next方法取数据。不再消耗大量内存。