MapReducer中获取输入文件路径

最新推荐文章于 2024-04-10 15:25:39 发布

RobertLab

最新推荐文章于 2024-04-10 15:25:39 发布

阅读量769

点赞数

分类专栏：【大数据之疑难杂症】文章标签： TaggedInputSplit InputSplit FileSplit Exception mapreduce

本文链接：https://blog.csdn.net/u013068377/article/details/83091138

版权

【大数据之疑难杂症】专栏收录该内容

1 篇文章 0 订阅

订阅专栏

正常情况：

在社区版的hadoop版本0.19/0.20中，当使用普通的输入的时候，比如：

job.setInputFormatClass(TextInputFormat.class);

在mapper运行的时候，可以用如下的方法得到对应的filesplit，也就能拿到对应的"输入路径"等信息

FileSplit fileSplit = (FileSplit)(reporter.getInputSplit()); 	// 版本:0.19

FileSplit fileSplit = (FileSplit)(context.getInputSplit());		// 版本:0.20
String fileName = fileSplit.getPath().toUri().getPath();

遇到问题：

但是如果是使用：

MultipleInputs.addInputPath(job, new Path(path),
	SequenceFileInputFormat.class, ProfileMapper.class);

在mapper中再使用上面的那种方式,就会报出一个类型转换错误：
java.lang.ClassCastException: org.apache.hadoop.mapreduce.lib.input.TaggedInputSplit cannot be cast to org.apache.hadoop.mapreduce.lib.input.FileSplit

解决办法及原理：

问题原因：

我们需要的filesplit实际上就是TaggedInputSplit中的成员变量inputSplit
然而TaggedInputSplit这个类在社区版中并不是public的，所以我们并不能直接直接拿到对应的信息了；不知道后续的社区版是怎么做的?可能已经修改了吧

解决办法：

通过反射来获得TaggedInputSplit中的inputSplit：

import java.io.IOException;
import java.lang.reflect.Method;

import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Mapper.Context;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public class MapperUtils {
	/**
	 * 获得输入文件路径
	 * */
	public static String getFilePath(Context context) throws IOException {
		InputSplit split = context.getInputSplit();
		Class<? extends InputSplit> splitClass = split.getClass();
		FileSplit fileSplit = null;
		if (splitClass.equals(FileSplit.class)) {
			fileSplit = (FileSplit) split;
		} else if(splitClass.getName().equals("org.apache.hadoop.mapreduce.lib.input.TaggedInputSplit")){
			try{
				Method getInputSplitMethod = splitClass.getDeclaredMethod("getInputSplit");
				//设置访问权限  true：不需要访问权限检测直接使用  false：需要访问权限检测
				getInputSplitMethod.setAccessible(true);
				fileSplit = (FileSplit) getInputSplitMethod.invoke(split);
			} catch (Exception e) {
				throw new IOException(e);
			}
		}
		return fileSplit.getPath().toUri().getPath();
	}
}

此时，通过：
String filePath = MapperUtils.getFilePath(context)；
即可获取输入文件路径

RobertLab

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReducer中获取输入文件路径

正常情况：在社区版的hadoop版本0.19/0.20中，当使用普通的输入的时候，比如：job.setInputFormatClass(TextInputFormat.class);在mapper运行的时候，可以用如下的方法得到对应的filesplit，也就能拿到对应的"输入路径"等信息FileSplit fileSplit = (FileSplit)(reporter.getInput...
复制链接

扫一扫