Hadoop中获取输入文件路径

有时任务的多个输入源有着相同的格式,没有其他方式可以做区分,比较恼火。查询文档,发现下面这种方法。

 

Mapper.Context提供了获取当前Mapper的input split信息的接口,返回的类型是InputSplit,而实际类型一般情况下默认是FileSplit。FileSplit提供了获取当前split的输入文件的路径,可以用此路径区分各个数据源。

 

我有些数据是按照月日时的方式组织的,目录结构类似于 201104/16/02/part-r-00001 ,数据里没有日期字段。现在有个需求,要求程序能够区分数据的日期,那么可以在对应的mapper类的setup方法中嵌入以下代码:

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用Hadoop API来获取Hadoop文件系统文件并输出文件内容。以下是一个简单的Java代码示例: ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.fs.FSDataInputStream; public class HadoopFileSystemExample { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://localhost:9000"); // 设置Hadoop文件系统的地址 FileSystem fs = FileSystem.get(conf); Path filePath = new Path("/path/to/file.txt"); // 文件路径 if (fs.exists(filePath)) { // 判断文件是否存在 System.out.println("File exists!"); // 读取文件内容 FSDataInputStream inputStream = fs.open(filePath); byte[] buffer = new byte[1024]; int bytesRead = inputStream.read(buffer); while (bytesRead > 0) { System.out.print(new String(buffer, 0, bytesRead)); bytesRead = inputStream.read(buffer); } inputStream.close(); } else { System.out.println("File does not exist!"); } fs.close(); // 关闭文件系统对象 } } ``` 在上述代码,我们首先创建了一个`Configuration`对象,并将Hadoop文件系统的地址设置为`fs.defaultFS`属性。然后,我们使用`FileSystem.get(conf)`方法获取一个文件系统对象。接着,我们传入文件路径,判断文件是否存在。如果文件存在,我们打开它的输入流,读取文件内容并输出。最后,我们关闭了文件系统对象。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值