nutch recrawl中出现的问题及解决

昨天在recrawl的时候经常出现

错误1

java.lang.ArrayIndexOutOfBoundsException: -1

at org.apache.lucene.index.MultiReader.isDeleted(MultiReader.java:113)

at org.apache.nutch.indexer.DeleteDuplicates$InputFormat$DDRecordReader.next(DeleteDuplicates.java:176)

at org.apache.hadoop.mapred.MapTask$1.next(MapTask.java:157)

at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:46)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:175)

at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:126)

发现这个错误经常是由下面的情况导致

2009-06-28 16:28:34,522 WARN crawl.Generator (Generator.java:generate(425)) - Generator: 0 records selected for fetching, exiting …

网上发现 Generator: 0...这个是由于分布式环境造成的,但我目前还是单机,而且这个是在recrawl时才出现,后来发现所有的crawldb都被过滤掉了,为什么crawl的时候没有这种情况?

原来crawl的时候调用的crawl类,crawl类多加载了一个配置文件即crawl-tool.xml,此配置文件将urlfilter.regex.file指定为crawl-urlfilter.txt,覆盖了nutch-default(默认urlfilter.regex.file指定为regex-urlfilter.txt),recrawl直接调用generator类,这个类没有加载crawl-tool.xml,于是出现问题了,前者使用的是改过的crawl-urlfilter.txt,后者使用的是regex-urlfilter.txt,两者不一致,导致crawl-urlfilter.txt配置的过滤项在regex-0urlfilter.txt不成立,于是全被过滤掉,所以generator0,从而进一步导致错误1

暂时的解决办法是同步crawl-tool.xml和nutch-default.xml

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值