Hadoop Map中获取当前spilt文件名

最新推荐文章于 2018-09-18 11:49:01 发布

洼里南口

最新推荐文章于 2018-09-18 11:49:01 发布

阅读量705

点赞数

Hadoop Map中获取当前spilt文件名

hadoop mapreduce map获取路径

有时候需要在Map类中的map函数中获取当前split所读取的文件名。

在旧版mapred下面实现方法如下：

// 获得输入文件的路径名
String path=((FileSplit)reporter.getInputSplit()).getPath().toString();

//使用Reporter reporter对象来获取，在新版mapreduce中，

Reporterreporter被封装在类MapContext中（StatusReporterreporter），

在map函数中就是Context context，实现方法应该类似，有兴趣的朋友可以试试。

-----------分割线----------->

importorg.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

InputSplitinputSplit = context.getInputSplit();
String fileName = ((FileSplit) inputSplit).getPath().toString();

刚刚搜索了下，新版中实现如下（转载，未测试，方法应该正确）

以下转载：

在mapper中获取当前正在处理的HDFS文件名/HDFS目录名

有时候，Hadoop是按行来对数据进行处理的，由于对每一行数据，map()函数会被调用一次，我们有时可以根据文件名/目录名来获取一些信息，从而把它们输出，例如，目录名中包含了日期，则我们可以取出来并输出到Reducer。在map()函数中，我们可以这样取文件名：

1 2	InputSplit inputSplit = context.getInputSplit(); String fileName = ((FileSplit) inputSplit).getName();

假设当前正在处理的HDFS文件路径为：/user/hadoop/abc/myFile.txt，则上面的 fileName 取到的是“myFile.txt”这样的字符串。但如果要获取其目录名“abc”，则可以这样做：

1 2	InputSplit inputSplit = context.getInputSplit(); String dirName = ((FileSplit) inputSplit).getPath().getParent().getName();

本文转载自:http://blog.csdn.net/shallowgrave/article/details/7757914?reload

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。