heritrix
fengbolaisearch
这个作者很懒,什么都没留下…
展开
-
抓取的一些疑问
1、heritrix的工作流是什么?2、如何加入自己的extractor?-OK3、什么时候用extractor,什么时候用Frontiercontrol? FrontierScheduler是一个PostProcessor,它的作用是将在Extractor中所分析得出的链接加入到Frontier中,以待继续处理。 在www.ctrip.com中我只想抓取一个链接,应该如何原创 2010-01-07 16:16:00 · 306 阅读 · 0 评论 -
抓取指定的html
1. Heritrix 简介Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为,另外,它还有一个命令行工具来供用户选择调用。Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布是在2004年1月,并不断的被互联网档案馆和其他原创 2010-01-11 22:39:00 · 4819 阅读 · 2 评论