设计道
文章平均质量分 75
mxdxm8899
这个作者很懒,什么都没留下…
展开
-
heritrix中的一些类的方法
一些类中的重要数据成员及方法1、Processor处理器 Process方法:被定义为final类型的,即不能被覆盖;调用innerProcess方法 InnerProcess方法:定义为protected,由其子类来实现2、ProcessorChain类 ProcessMap:存放当前的Chain中的所有processor nextChain:指向下一个处理器链 firstProcessor:指向第一个处理器3、ProcessorChainLis转载 2010-09-08 09:33:00 · 205 阅读 · 0 评论 -
heritrix的结构
<br /> Heritrix采用了模块化的设计,它由一些核心类(core classes)和可插件模块(pluggable modules)构成。<br /> 核心类可以配置,但不能被覆盖,插件模块可以被由第三方模块取代。<br /> <br />(1)CrawlController(下载控制器)<br /> 整个下载过程的总的控制者,整个抓取工作的起点,决定整个抓取任务的开始和结束。从Frontier获取URI,传递给<br />线程池(ToePool)中的ToeThrea转载 2010-09-08 09:51:00 · 197 阅读 · 0 评论 -
robots.txt介绍
<br />在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。<br /> <br />robots.txt基本介绍<br />robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。<br />当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中原创 2010-09-08 11:25:00 · 188 阅读 · 0 评论 -
heritrix的模块结构
1、Frontier(链接工厂)是Heritrix最核心的部分,有三个核心的方法:next,schedule,finished,其原型及作用如下:a) 提供一个链接.Heritrix的所有处理线程(ToeThread)都是通过调用该方法获取链接的 b) schedule(CandidateURI caURI):调度待处理的链接 c) finished(CrawlURI cURI):完成一个已处理的链接 2 Processor(解析处理器),包含三个重要的类: a) Processor(处理器类):代表一个处原创 2010-09-08 09:28:00 · 233 阅读 · 0 评论 -
heritrix中的surt
<br />在Heritrix中,如果我们需要抓取指定host的网页,需要用到SurtPrefixedDecideRule这个规则。<br />这里根据Heritrix的文档,解释一下SURT。<br />SURT全称是Sort-friendly URI Reordering Transform。<br />目的是将一个URL转换成更方便的格式进行处理。<br />....<br />SURT类可以将下面这种形式的URL:<br />scheme://userinfo@domain.tld:port/pat转载 2010-09-08 11:45:00 · 472 阅读 · 0 评论