hadoop错误总结

最新推荐文章于 2024-11-12 23:14:56 发布

weixin_33712987

最新推荐文章于 2024-11-12 23:14:56 发布

阅读量88

点赞数

文章标签：大数据 java python

原文链接：https://my.oschina.net/u/1169079/blog/201376

版权

2019独角兽企业重金招聘Python工程师标准>>>

 
1、在重新编译hadoop后可能会造成版本不一致的现象。 
 最近几个星期一直在修改Hadoop的计算能力调度算法，遇到了这样那样的问题。 我修改的版本是hadoop-0.20.2 第一步： 将hadoop的源码加载到eclipse中配置使用ant编译 第二步： 根据需要修改源码 第三步： 使用ant编译修改内容，这里要提醒的就是要保证编译平台的JDK和运行平台的JDK相同 ant编译的方法是：首先到$HadoopHome/src/contrib/capacity-scheduler目录下 直接输入ant就可以编译，编译成功后会提示生产的JAR文件在$HadoopHome/build/contrib/capacity-scheduler 中。 重要的是如果修改了capacity-scheduler外的其他内容（主要在MapReduce中）也需要将修改后的整个Hadoop编译 而且要在编译capacity-scheduler之前进行编译。编译整个hadoop会在build文件夹下看到hadoop-0.20.2-dev-capacity-scheduler.jar 第四步： 将hadoop-0.20.2-dev-capacity-scheduler.jar重命名为hadoop-0.20.2-capacity-scheduler.jar 以及将hadoop-${version}-capacity-scheduler.jar重新名为hadoop-0.20.2-capacity-scheduler.jar 覆盖集群中响应的JAR重新启动集群就可以了以上是成功的步骤，但是在整个过程中总会出现错误，下面具体分析一下我遇到的错误： 我是在windows 下编译的在Ubuntu中搭建的集群，开始的时候两个平台的JDK不一致， 导致了：java.lang.UnsupportedClassVersionError 的错误 所以要保证JDK一致 有时候会遇到org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible build versions: namenode BV = ; datanode BV = 911707 这个错误的原因是因为datanode的版本和NameNode的版本不一致。我将生成的hadoop-0.20.2-dev-capacity-scheduler.jar重命名后覆盖到DataNode的$HadoopHome 中
2、获取年最大温度值
  
 public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{ 
     public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
      String line = value.toString();
      String year = line.substring(15, 19);
      int tmp;
      if(line.charAt(25)=='+'){
       tmp = Integer.parseInt(line.substring(26,30));
       System.out.println(tmp);
      }else{
       tmp = Integer.parseInt(line.substring(25,30));
       System.out.println(line.substring(25, 30));
      }
      context.write(new Text(year), new IntWritable(tmp));
     }
   }
   
   public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
    
     public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
      int maxValue = 0;
      while(values.iterator().hasNext()){
       maxValue = Math.max(maxValue, values.iterator().next().get());       
      } 
       context.write(key, new IntWritable(maxValue));
     }
   } 
异常： java.lang.StringIndexOutOfBoundsException: String index out of range: 19
 at java.lang.String.substring(String.java:1907)
 at com.zzg.test.GetMaxTemp$TokenizerMapper.map(GetMaxTemp.java:21)
 at com.zzg.test.GetMaxTemp$TokenizerMapper.map(GetMaxTemp.java:1)
 at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:144)
 at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
 at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
 at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:212)
这个异常原因是因为数据文件中有空行。

转载于:https://my.oschina.net/u/1169079/blog/201376