![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
heritrix
iloveyin
这个作者很懒,什么都没留下…
展开
-
利用 Heritrix 构建特定站点爬虫
本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展,介绍如何实现只抓取特定网站的页面。 通过本文,读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行,能够从零开始构建特定站点的专有爬虫,从而为网站增加全文检索服务。 背景 随着网站内容的增加,为其添加搜索功能是一个常见的需求,搜索引擎也已成为互联网最重要的应转载 2012-05-31 09:06:14 · 977 阅读 · 0 评论 -
heritrix总结------HostnameQueueAssignmentPolicy改写
Heritrix多线程默认是根据域名来分下载队列,但是这种策略非常不符合垂直搜索的要求,故需要引入ELFHash来改进分配策略。 指定的链接队列中以host作为key值进行hash,这样使得即使配置了100个线程,也只有一个线程在运行,因为heritrix默认每次从一个队列中取出来一个url进行抓取,等抓取结束之后再取另外一个。因为指定路径基本上都是在一个host里面,这样就会变成单线程爬取原创 2012-05-31 23:31:49 · 1790 阅读 · 0 评论 -
heritrix总结---定制FrontierScheduler
Heritrix扩展有两种方式:一种是重写FrontierScheduler;一种是重写Extractor;今天讲第一种。 它的作用是在后处理时踢出一些不满足条件的url,直接上代码package org.VOD.Video; import org.archive.crawler.datamodel.CandidateURI; import org.archive.crawler.post原创 2012-06-01 00:18:22 · 2371 阅读 · 1 评论