在nutch-default.xml中设置默认和最大爬取间隔分别是30天和90天:
在没有修改该配置项的时候,如果需要重新爬取上一次爬过的url,通常都需要把上次爬取保存的crawdb等文件删掉后才会进行新一轮的抓取动作。当然这和设定的爬取规则也有关系。
默认的规则是比较上次爬取时间、设定的爬取间隔和当前时间。如果当前时间离上次爬取的时间超过了设定的时间 间隔就会重爬。
对这些项修改,最好在nutch-site.xml中添加相应的项,然后修改<valur>值,配置的结果会覆盖nutch-default.xm中相应的项。
参考:http://pascaldimassimo.com/2010/06/11/how-to-re-crawl-with-nutch/