streaming方式的CombineFileInputFormat实现

hadoop版本问题严重,0.21的streaming方式无法正确使用combinefileinputformat,修改部分源码,以及实现CombineFileLineRecordReader。
源码修改部分:hadoop-mapred-0.21.0.jar包里的org.apache.hadoop.mapred.lib.CombineFileInputFormat.java文件

streaming方式要求任务分片为org.apache.hadoop.mapred.InputSplit,而实际输入分片为org.apache.hadoop.mapreduce.lib.input.CombineFileSplit,所以需要转变分片类型。

public InputSplit[] getSplits(JobConf job, int numSplits) 
    throws IOException {
	  List<org.apache.hadoop.mapreduce.InputSplit> splits = super.getSplits(new Job(job));
	  int size = splits.size();
	  
	  if (splits.get(0) instanceof org.apache.hadoop.mapreduce.lib.input.CombineFileSplit)
	  {
		  InputSplit[] returnSplits = new InputSplit[size];
	      for(int i=0;i<size; i++)
	      {
		      org.apache.hadoop.mapreduce.lib.input.CombineFileSplit combineFileSplit = (org.apache.hadoop.mapreduce.lib.input.CombineFileSplit)splits.get(i);
		      Path[] paths = combineFileSplit.getPaths();
		      long[] starts = combineFileSplit.getStartOffsets();
		      long[] lengths = combineFileSplit.getLengths();
		      String[] locations = combineFileSplit.getLocations();
		  
		      returnSplits[i] = new CombineFile
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值