Heritrix重要类的数据成员及方法

 

一些类中的重要数据成员及方法

1Processor处理器

       Process方法:被定义为final类型的,即不能被覆盖;调用innerProcess方法

       InnerProcess方法:定义为protected,由其子类来实现

2ProcessorChain

       ProcessMap:存放当前的Chain中的所有processor

       nextChain:指向下一个处理器链

       firstProcessor:指向第一个处理器

3ProcessorChainList

       数据成员中包含五种类型的ProcessorChain

4、  ToeThread

该类是线程池中的一个线程类,调用所有的处理器来处理一个链接

ProcessCrawlUri方法:Heritrix的核心所在,设置双重循环来遍历整个处理器链的结构。第一重遍历处理器链,第二重遍历链内部每一个每一个Processor,并调用当前遍历的Processorprocess方法处理uri

       Run方法:

a)         调用Frontier中的next方法获取下一个uri

b)        调用本类中的processCrawlUri来处理当前的uri

c)         调用Frontier类中的finished方法;

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值