在本地文件上传至HDFS过程中,很多情况下一个目录包含很多个文件,而我们需要对这些文件进行筛选,选出符合我们要求的文件,上传至HDFS。这时就需要我们用到文件模式。 在项目开始前,我们先掌握文件模式
1、文件模式
在某个单一操作中处理一系列文件是很常见的。例如一个日志处理的MapReduce作业可能要分析一个月的日志量。如果一个文件一个文件或者一个目录一个目录的声明那就太麻烦了,我们可以使用通配符(wild card)来匹配多个文件(这个操作也叫做globbing)。
Hadoop提供了两种方法来处理文件组:
1 public FileStatus[] globStatus(Path pathPattern) throwsIOException;2
3 public FileStatus[] globStatus(Path pathPattern, PathFilter filter) throws IOException;
PathFilter
使用文件模式有时候并不能有效的描述你想要的一系列文件,例如如果你想排除某个特定文件就很难。所以FileSystem的listStatus()和globStatus()方法就提供了一个可选参数:PathFilter——它允许你一些更细化的控制匹配:
1 packageorg.apache.hadoop.fs;2
3 public interfacePathFilter4 {5 booleanaccept(Path path);6 }
Hadoop中的匹配符与Unix中bash相同,如下图所示:、