Hadoop_Map中获取当前spilt文件名

有时候需要在Map类中的map函数中获取当前split所读取的文件名。
在旧版mapred下面实现方法如下:
// 获得输入文件的路径名
String path=((FileSplit)reporter.getInputSplit()).getPath().toString();
//使用Reporter reporter对象来获取,在新版mapreduce中,
Reporter reporter被封装在类MapContext中(StatusReporter reporter),
在map函数中就是Context context,实现方法应该类似,有兴趣的朋友可以试试。


-----------分割线----------->
import org.apache.hadoop.mapreduce.InputSplit; 
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
InputSplit inputSplit = context.getInputSplit();
String fileName = ((FileSplit) inputSplit).getPath().toString();


刚刚搜索了下,新版中实现如下(转载,未测试,方法应该正确)
以下转载:
在mapper中获取当前正在处理的HDFS文件名/HDFS目录名


有时候,Hadoop是按行来对数据进行处理的,由于对每一行数据,map()函数会被调用一次,我们有时可以根据文件名/目录名来获取一些信息,从而把它们输出,例如,目录名中包含了日期,则我们可以取出来并输出到Reducer。在map()函数中,我们可以这样取文件名:


InputSplit inputSplit = context.getInputSplit();
String fileName = ((FileSplit) inputSplit).getName();
假设当前正在处理的HDFS文件路径为:/user/hadoop/abc/myFile.txt,则上面的 fileName 取到的是“myFile.txt”这样的字符串。但如果要获取其目录名“abc”,则可以这样做:


InputSplit inputSplit = context.getInputSplit();
String dirName = ((FileSplit) inputSplit).getPath().getParent().getName();
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值