Hadoop＿Map中获取当前spilt文件名

最新推荐文章于 2022-05-14 10:56:27 发布

cuilanbo

最新推荐文章于 2022-05-14 10:56:27 发布

阅读量2.9k

点赞数

分类专栏： hadoop

hadoop 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

有时候需要在Map类中的map函数中获取当前split所读取的文件名。
在旧版mapred下面实现方法如下：
// 获得输入文件的路径名
String path=((FileSplit)reporter.getInputSplit()).getPath().toString();
//使用Reporter reporter对象来获取，在新版mapreduce中，
Reporter reporter被封装在类MapContext中（StatusReporter reporter），
在map函数中就是Context context，实现方法应该类似，有兴趣的朋友可以试试。

-----------分割线----------->
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
InputSplit inputSplit = context.getInputSplit();
String fileName = ((FileSplit) inputSplit).getPath().toString();

刚刚搜索了下，新版中实现如下（转载，未测试，方法应该正确）
以下转载：
在mapper中获取当前正在处理的HDFS文件名/HDFS目录名

有时候，Hadoop是按行来对数据进行处理的，由于对每一行数据，map()函数会被调用一次，我们有时可以根据文件名/目录名来获取一些信息，从而把它们输出，例如，目录名中包含了日期，则我们可以取出来并输出到Reducer。在map()函数中，我们可以这样取文件名：

InputSplit inputSplit = context.getInputSplit();
String fileName = ((FileSplit) inputSplit).getName();
假设当前正在处理的HDFS文件路径为：/user/hadoop/abc/myFile.txt，则上面的 fileName 取到的是“myFile.txt”这样的字符串。但如果要获取其目录名“abc”，则可以这样做：

InputSplit inputSplit = context.getInputSplit();
String dirName = ((FileSplit) inputSplit).getPath().getParent().getName();