在Eeclipse直接运行运行Nutch的Crawl任务,会出现异常:
Hadoop java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1232) while indexing
刚开始还以为是配置文件写的有问题,在详细检查了配置文件以后,发现配置文件没有问题
查日志,发现为out of memory异常
于是乎,设置VM arguments参数如下:
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
-Xms64m -Xmx512m
主要为第二句,设置内存
再启动任务,问题解决,可以正常运行Nutch Crawl任务