NullPointerException at org.apache.nutch.fetcher.FetcherOutputFormat.checkOutputSpecs

最新推荐文章于 2022-04-13 20:50:03 发布

deqingguo

最新推荐文章于 2022-04-13 20:50:03 发布

阅读量1k

点赞数

分类专栏： Nutch Hadoop 文章标签： import path null output hadoop ant

本文链接：https://blog.csdn.net/deqingguo/article/details/6907412

版权

Hadoop 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

Nutch

2 篇文章 0 订阅

订阅专栏

坑爹呀，这个错误，纠结了我好几天，终于解决了，我觉的很有必要单独拿出来与大家分享下：

原因就是这个是Nutch1.3在与Hadoop0.20.203.0整合的时候的一个bug，在官网上有做出了相应的修改：

修改方法就是得修改两个文件：加号表示添加，减号表示删除~~

修改的第一个文件是：src/java/org/apache/nutch/parse/ParseOutputFormat.java

 public void checkOutputSpecs(FileSystem fs, JobConf job) throws IOException {
-    Path out = FileOutputFormat.getOutputPath(job);
-    if (fs.exists(new Path(out, CrawlDatum.PARSE_DIR_NAME)))
-      throw new IOException("Segment already parsed!");
+      Path out = FileOutputFormat.getOutputPath(job);
+      if ((out == null) && (job.getNumReduceTasks() != 0)) {
+          throw new InvalidJobConfException(
+                  "Output directory not set in JobConf.");
+      }
+      if (fs == null) {
+          fs = out.getFileSystem(job);
+      }
+      if (fs.exists(new Path(out, CrawlDatum.PARSE_DIR_NAME)))
+          throw new IOException("Segment already parsed!");
   }

修改的第二个文件是：src/java/org/apache/nutch/fetcher/FetcherOutputFormat.java

import org.apache.hadoop.io.SequenceFile.CompressionType;
 
 import org.apache.hadoop.mapred.FileOutputFormat;
+import org.apache.hadoop.mapred.InvalidJobConfException;
 import org.apache.hadoop.mapred.OutputFormat;
 import org.apache.hadoop.mapred.RecordWriter;
 import org.apache.hadoop.mapred.JobConf;
@@ -46,8 +47,15 @@
 
   public void checkOutputSpecs(FileSystem fs, JobConf job) throws IOException {
     Path out = FileOutputFormat.getOutputPath(job);
+    if ((out == null) && (job.getNumReduceTasks() != 0)) {
+    throw new InvalidJobConfException(
+    "Output directory not set in JobConf.");
+    }
+    if (fs == null) {
+    fs = out.getFileSystem(job);
+    }
     if (fs.exists(new Path(out, CrawlDatum.FETCH_DIR_NAME)))
-      throw new IOException("Segment already fetched!");
+    throw new IOException("Segment already fetched!");
   }

修改完这两个文件，再重新ant编译下，问题解决~~

deqingguo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NullPointerException at org.apache.nutch.fetcher.FetcherOutputFormat.checkOutputSpecs

坑爹呀，这个错误，纠结了我好几天，终于解决了，我觉的很有必要单独拿出来与大家分享下：原因就是这个是Nutch1.3在与Hadoop0.20.203.0整合的时候的一个bug，在官网上有做出了相应的修改：修改方法就是得修改两个文件：加号表示添加，减号表示删除~~修改的第一个文件是：src/java/org/apache/nutch/parse/ParseOutputF
复制链接

扫一扫