1、heritrix的工作流是什么?
2、如何加入自己的extractor?-OK
3、什么时候用extractor,什么时候用Frontiercontrol?
FrontierScheduler是一个PostProcessor,它的作用是将在Extractor中所分析得出的链接加入到Frontier中,以待继续处理。
在www.ctrip.com中我只想抓取一个链接,应该如何做?
1、heritrix的工作流是什么?
2、如何加入自己的extractor?-OK
3、什么时候用extractor,什么时候用Frontiercontrol?
FrontierScheduler是一个PostProcessor,它的作用是将在Extractor中所分析得出的链接加入到Frontier中,以待继续处理。
在www.ctrip.com中我只想抓取一个链接,应该如何做?