专注于互联网架构技术,努力成为一名架构师

专注于互联网架构技术,努力成为一名架构师

heritrix总结---定制FrontierScheduler

Heritrix扩展有两种方式:一种是重写FrontierScheduler;一种是重写Extractor;今天讲第一种。 它的作用是在后处理时踢出一些不满足条件的url,直接上代码package org.VOD.Video; import org.archive.crawler.data...

2012-06-01 00:18:22

阅读数:2151

评论数:1

heritrix总结------HostnameQueueAssignmentPolicy改写

Heritrix多线程默认是根据域名来分下载队列,但是这种策略非常不符合垂直搜索的要求,故需要引入ELFHash来改进分配策略。 指定的链接队列中以host作为key值进行hash,这样使得即使配置了100个线程,也只有一个线程在运行,因为heritrix默认每次从一个队列中取出来一个url...

2012-05-31 23:31:49

阅读数:1647

评论数:0

利用 Heritrix 构建特定站点爬虫

本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展,介绍如何实现只抓取特定网站的页面。 通过本文,读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行,能够从零开始构建特定站点的专有爬虫,从而为网站增加全文检索服务。 ...

2012-05-31 09:06:14

阅读数:857

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭