[转]nutch1.2断电或者断网后继续爬取的方式

最近用nutch抓取了几个g的数据,爬了两天了。中途要断电,网上找到别人的断点继续爬取的方式,解决了问题。

 

nutch抓取过程是分阶段的,每个阶段完成后都会写到文件中。

附nutch抓取的阶段: (injector) ->generator -> fetcher -> crawldb updater -> linkdb updater -> indexer ->deldup -> merger。

 

 

 

下面是从fetcher阶段之后,各个阶段的调用命令:
(假设crawl为抓取目录,crawl/segments存放每一轮抓取的结果,crawl/crawldb为crawldb的目录,crawl/linkdb存放所有的链接,crawl/segments/20091102091322是本轮generate产生的待抓取的网页)
fetch    usage:
        bin/nutch fetch crawl/segments/20091102091322

updatedb usage:
        bin/nutch updatedb crawl/crawldb crawl/segments/20091102091322 -filter

updatelinkdb usage:
        bin/nutch invertlinks crawl/linkdb crawl/segments/20091102091322

index usage:
        bin/nutch index crawl/indexes crawl/crawldb crawl/linkdb crawl/segments/20091102091322

deldup usage:
        bin/nutch nearDedup crawl/indexes

merge usage:
        bin/nutch merge crawl/index_20091102091322 crawl/indexes

 

 

 

转自:http://www.hadoopor.com/thread-453-1-1.html

(求救!NUTCH中途爬行中断怎么继续未完成的任务!!!高人指点下)

 

 

 

补充:其实后来实践,并没有很好地解决问题。这种措施只能继续被中断的某个segment(比如本例子的20091102091322)的各个抓取步骤,紧接下来的别的segment并不能继续.大家可以实践并交流

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值