Heritrix
绝地反击T
世界那么大,我想去看看。
展开
-
Heritrix总结及消重算法初探
Heritrix是一个纯由java开发,并且开源的Web网络爬虫,用户可以使用它从网络上抓取资源。它具有良好的扩展性,我们可以通过扩展它的各个组件,来实现自己的抓取逻辑。Heritrix的操作模型如下: 图1. Heritrix操作模型用户通过web界面,定义抓取任务,包括定义抓取的范围(scope转载 2014-10-30 20:12:21 · 747 阅读 · 0 评论 -
深入学习Heritrix---解析CrawlController
当我们以Web UI方式使用Heritrix时,点击任务开始(start)按钮时,Heritrix就开始了它的爬取工作.但它的内部执行流程是怎样的呢?别急,下面将慢慢道来.(一)CrawlJobHandler当点击任务开始(start)按钮时,将执行它的startCrawler()方法:if(sAction.equalsIgnoreCase("start")){转载 2014-11-02 11:25:02 · 804 阅读 · 0 评论 -
深入学习heritrix---体系结构(Overview of the crawler)
Heritrix采用了模块化的设计,它由一些核心类(core classes)和可插件模块(pluggable modules)构成。核心类可以配置,但不能被覆盖,插件模块可以被由第三方模块取代。(一)heritrix的体系结构图: (二)架构分析CrawlController(下载控制器)整个下载过程的总的控制者,整个抓取工作的起点,决定整个抓取任务的开始和结束。从F转载 2014-11-02 11:32:47 · 643 阅读 · 0 评论 -
Heritrix 的常用技巧
1) 只保存html类型的文件对于大多数的搜索引擎,我们所要做的只是对于纯文本的搜索。因此只需要保存html类型的内容。Heritrix的官方文档”Heritrix User Manual”中给出了一个解决方案 在新建任务时点击”submodules”,如下图: 添加一个新的规则,类型为NotMatchesFilePatternDecideRule,并转载 2014-11-20 22:47:39 · 571 阅读 · 0 评论 -
扩展Heritrix的FrontierScheduler(正则表达式的应用)
heritrix有多个扩展点,这里我扩展FrontierScheduler,它是一个PostProcessor,它的作用是在Extractor 中所分析的链接加到Frontier中。FrontierScheduler在org.archive.crawler.postprocessor包下面,我写一个类MyFrontierScheduler来继承FrontierScheduler类,,自己写原创 2014-11-02 18:52:05 · 1072 阅读 · 0 评论