爬虫
文章平均质量分 80
普通网友
这个作者很懒,什么都没留下…
展开
-
Heritrix Eclipse下环境配置
在http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/1.14.4/下载heritrix, heritrix-1.14.4-src.zip 中包含原始的源代码,方便进行二次开发。本文需要用到 heritrix-1.14.4-src.zip,将其下载并解压至 heri转载 2011-11-27 20:38:29 · 2283 阅读 · 0 评论 -
使用heritrix抓取特定页面
扩展 FrontierScheduler 来抓取特定网站内容 FrontierScheduler 是 org.archive.crawler.postprocessor 包中的一个类,它的作用是将在 Extractor 中所分析得出的链接加入到 Frontier 中,以待继续处理。在该类的 innerProcess(CrawlURI) 函数中,首先检查当前链接队列中是否有一些属于高优先级的链原创 2011-12-01 16:54:11 · 3333 阅读 · 1 评论