java 上传文件到hdfs_利用Java API通过路径过滤上传多文件至HDFS

最新推荐文章于 2023-11-28 16:51:13 发布

LA05hiren

最新推荐文章于 2023-11-28 16:51:13 发布

阅读量745

点赞数

文章标签： java 上传文件到hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35398720/article/details/114086020

版权

在本地文件上传至HDFS过程中，很多情况下一个目录包含很多个文件，而我们需要对这些文件进行筛选，选出符合我们要求的文件，上传至HDFS。这时就需要我们用到文件模式。在项目开始前，我们先掌握文件模式

1、文件模式

在某个单一操作中处理一系列文件是很常见的。例如一个日志处理的MapReduce作业可能要分析一个月的日志量。如果一个文件一个文件或者一个目录一个目录的声明那就太麻烦了，我们可以使用通配符(wild card)来匹配多个文件(这个操作也叫做globbing)。

Hadoop提供了两种方法来处理文件组：

1 public FileStatus[] globStatus(Path pathPattern) throwsIOException;2

3 public FileStatus[] globStatus(Path pathPattern, PathFilter filter) throws IOException;

PathFilter

使用文件模式有时候并不能有效的描述你想要的一系列文件，例如如果你想排除某个特定文件就很难。所以FileSystem的listStatus()和globStatus()方法就提供了一个可选参数：PathFilter——它允许你一些更细化的控制匹配：

1 packageorg.apache.hadoop.fs;2

3 public interfacePathFilter4 {5 booleanaccept(Path path);6 }

Hadoop中的匹配符与Unix中bash相同，如下图所示：、

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java 上传文件到hdfs_利用Java API通过路径过滤上传多文件至HDFS

在本地文件上传至HDFS过程中，很多情况下一个目录包含很多个文件，而我们需要对这些文件进行筛选，选出符合我们要求的文件，上传至HDFS。这时就需要我们用到文件模式。在项目开始前，我们先掌握文件模式1、文件模式在某个单一操作中处理一系列文件是很常见的。例如一个日志处理的MapReduce作业可能要分析一个月的日志量。如果一个文件一个文件或者一个目录一个目录的声明那就太麻烦了，我们可以使用通配符(w...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。