3.5 Java接口
在本小节,我们要深入探索Hadoop的Filesystem类:与Hadoop的文件系统交互的API。 虽然我们主要关注的是HDFS的实现DistributedFileSystem,但总体来说,还是应该努力编写不同于FileSsytem抽象类的代 码,以保持其在不同文件系统中的可移植性。这是考验编程能力的最佳手段,因为我们很快就可以使用存储在本地文件系统中的数据来运行测试了。
3.5.1 从Hadoop URL中读取数据
要从Hadoop文件系统中读取文件,一个最简单的方法是使用java.net.URL对象来打开一个数据流,从而从中读取数据。一般的格式如下:
InputStream in = null;
try {
in = new URL(“hdfs://host/path”).openStream();
// process in
} finally {
IOUtils.closeStream(in);
}
这里还需要一点工作来让Java识别Hadoop文件系统的URL 方案,就是通过一个FsUrlStreamHandlerFactory实例来调用在URL中的setURLStreamHandler-Factory 方法。这种方法在一个Java虚拟机中只能被调用一次,因此一般都在一个静态块中执行。这个限制意味着如果程序的其他部件(可能是不在你控制中的第三方部 件)设置一个URLStreamHandlerFactory,我们便无法再从Hadoop中读取数据。下一节将讨论另一种方法。
例3-1展示了以标准输出显示Hadoop文件系统的文件的程序,它类似于Unix的cat命令。
例3-1:用URLStream