1. 多路径输入
FileInputFormat 是所有使用文件作为其数据源的 InputFormat 实现的基类,其中一个重要功能就是指定作业的输入文件位置。因为作业的输入被设定为一组路径,这对限定作业输入提供了很强的灵活性。FileInputFormat 类提供了四种静态方法来指定作业的输入路径:
public static void addInputPath(Job job, Path path);
public static void addInputPaths(Job job, String commaSeparatedPaths);
public static void setInputPaths(Job job, Path... inputPaths);
public static void setInputPaths(Job job, String commaSeparatedPaths);
这四种静态方法可以分为两大类:
-
addXXX:其中包含 addInputPath 和 addInputPaths 方法,这两个方法可以将一个或者多个路径加入到路径列表中
-
setXXX:其中包含 setInputPaths 和 setInputPaths 方法,这两个方法一次性将一个或者多个路径设定为完整的路径列表
1.1 addInputPath
使用 FileInputFormat.addInputPath 方法,一次只能指定一个路