[转]nutch1.2断电或者断网后继续爬取的方式
最近用nutch抓取了几个g的数据,爬了两天了。中途要断电,网上找到别人的断点继续爬取的方式,解决了问题。
nutch抓取过程是分阶段的,每个阶段完成后都会写到文件中。附nutch抓取的阶段: (injector) ->generator -> fetcher -> crawldb updater -> linkdb updater -> indexer ->deldup -> merge
原创
2016-02-23 19:09:01 ·
347 阅读 ·
0 评论