从Hadoop URL中读取数据

最新推荐文章于 2021-08-16 09:37:45 发布

weixin_33905756

最新推荐文章于 2021-08-16 09:37:45 发布

阅读量151

点赞数

文章标签：大数据 java

原文链接：https://my.oschina.net/crxy/blog/396913

版权

为什么80%的码农都做不了架构师？>>>

要从Hadoop文件系统中读取文件，一个最简单的方法是使用java.net.URL对象来打开一个数据流，从而从中读取数据。一般的格式如下：

1. InputStream in = null;

2. try {

3. in = new URL("hdfs://host/path").openStream();

4. // process in

5. } finally {

6. IOUtils.closeStream(in);

7. }

这里还需要一点工作来让Java识别Hadoop文件系统的URL 方案，就是通过一个FsUrlStreamHandlerFactory实例来调用在URL中的setURLStreamHandler-Factory方法。这种方法在一个Java虚拟机中只能被调用一次，因此一般都在一个静态块中执行。这个限制意味着如果程序的其他部件(可能是不在你控制中的第三方部件)设置一个URLStreamHandlerFactory，我们便无法再从Hadoop中读取数据。下一节将讨论另一种方法。

例3-1展示了以标准输出显示Hadoop文件系统的文件的程序，它类似于Unix的cat命令。

例3-1：用URLStreamHandler以标准输出格式显示Hadoop文件系统的文件

1. public class URLCat {

2.

3. static {

4. URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());

5. }

6.

7. public static void main(String[] args) throws Exception {

8. InputStream in = null;

9. try {

10. in = new URL(args[0]).openStream();

11. IOUtils.copyBytes(in, System.out, 4096, false);

12. } finally {

13. IOUtils.closeStream(in);

14. }

15. }

16. }

我们使用Hadoop中简洁的IOUtils类在finally子句中关闭数据流，同时复制输入流和输出流之间的字节(本例中是System.out)。copyBytes方法的最后两个参数，前者是要复制的缓冲的大小，后者表示复制结束后是否关闭数据流。这里是将输入流关掉了，而System.out不需要关闭。

下面是一个运行示例：

1. % hadoop URLCat hdfs://localhost/user/tom/quangle.txt

2. On the top of the Crumpetty Tree

3. The Quangle Wangle sat,

4. But his face you could not see,

5. On account of his Beaver Hat.

转载于:https://my.oschina.net/crxy/blog/396913

weixin_33905756

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从Hadoop URL中读取数据

为什么80%的码农都做不了架构师？>>> ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。