一些类中的重要数据成员及方法
1、Processor处理器
Process方法:被定义为final类型的,即不能被覆盖;调用innerProcess方法
InnerProcess方法:定义为protected,由其子类来实现
2、ProcessorChain类
ProcessMap:存放当前的Chain中的所有processor
nextChain:指向下一个处理器链
firstProcessor:指向第一个处理器
3、ProcessorChainList类
数据成员中包含五种类型的ProcessorChain
4、 ToeThread类
该类是线程池中的一个线程类,调用所有的处理器来处理一个链接
ProcessCrawlUri方法:Heritrix的核心所在,设置双重循环来遍历整个处理器链的结构。第一重遍历处理器链,第二重遍历链内部每一个每一个Processor,并调用当前遍历的Processor的process方法处理uri。
Run方法:
a) 调用Frontier中的next方法获取下一个uri;
b) 调用本类中的processCrawlUri来处理当前的uri;
c) 调用Frontier类中的finished方法;