Hadoop＿Map中获取当前spilt文件名

最新推荐文章于 2020-05-04 11:38:23 发布

舒沉

最新推荐文章于 2020-05-04 11:38:23 发布

阅读量1.5w

点赞数

分类专栏： hadoop mapreduce 文章标签： hadoop string mapreduce path 测试

本文链接：https://blog.csdn.net/shallowgrave/article/details/7757914

版权

hadoop 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

mapreduce

7 篇文章 0 订阅

订阅专栏

有时候需要在Map类中的map函数中获取当前split所读取的文件名。

在旧版mapred下面实现方法如下：

// 获得输入文件的路径名
String path=((FileSplit)reporter.getInputSplit()).getPath().toString();

//使用Reporter reporter对象来获取，在新版mapreduce中，

Reporter reporter被封装在类MapContext中（StatusReporter reporter），

在map函数中就是Context context，实现方法应该类似，有兴趣的朋友可以试试。

-----------分割线----------->

import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

InputSplit inputSplit = context.getInputSplit();
String fileName = ((FileSplit) inputSplit).getPath().toString();

刚刚搜索了下，新版中实现如下（转载，未测试，方法应该正确）

以下转载：

在mapper中获取当前正在处理的HDFS文件名/HDFS目录名

有时候，Hadoop是按行来对数据进行处理的，由于对每一行数据，map()函数会被调用一次，我们有时可以根据文件名/目录名来获取一些信息，从而把它们输出，例如，目录名中包含了日期，则我们可以取出来并输出到Reducer。在map()函数中，我们可以这样取文件名：

 
        InputSplit inputSplit = context.getInputSplit(); 
       
        String fileName = ((FileSplit) inputSplit).getName();

假设当前正在处理的HDFS文件路径为：/user/hadoop/abc/myFile.txt，则上面的 fileName 取到的是“myFile.txt”这样的字符串。但如果要获取其目录名“abc”，则可以这样做：

 
        InputSplit inputSplit = context.getInputSplit(); 
       
        String dirName = ((FileSplit) inputSplit).getPath().getParent().getName();

舒沉

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录