Heritrix源码分析(十一) Heritrix中的URL--CandidateURI和CrawlURI以及如何增加自己的属性...-CSDN博客

Url是爬虫的核心,因为爬虫就是依赖URL一层一层的抓取下去，最后完成整个抓取。Heritrix中的URL比较特殊,有以下继承关系(由于不对继承关系作介绍,所以这里就不画图了):

1)org.archive.crawler.datamodel.CrawlURI——>CandidateURI

2)org.archive.net.UURI——>org.archive.net.LaxURI

——>org.apache.commons.httpclient.URI——>java.net.URL

前面说过CrawlURI和CandidateURI的区别在于CrawlURI是由通过了调度器(Frontier)的CandidateURI转换而来的。下面就先介绍CnadidateURI(主要介绍相关属性):

    Java代码
    
  
 publicstaticfinalintHIGH=1;//调度器调度等级：高 
 publicstaticfinalintHIGHEST=0;//调度器调度等级:最高 
 publicstaticfinalintMEDIUM=2;//调度器调度等级:中 
 publicstaticfinalintNORMAL=3;//调度器调度等级：普通 
 //URL字符串 
 privateStringcachedCandidateURIString=null; 
  
 //队列Key,不同队列有不同的classKey.其中相同classKey的CandidateURI则属于相同的队列 
 privateStringclassKey; 
  
 //是否强制访问,强制访问的话会重复抓取 
 privatebooleanforceRevisit=false; 
 //是不是种子 
 privatebooleanisSeed=false; 
 /** 
 *灵活的属性列表,Heritrix在运行过程中需要保存不固定的属性和属性值, 
 *同时扩展Heritrix属性也可以放在里面。不过需要特殊处理，等下单独介绍 
 */ 
 privatetransientAListalist; 
  
 /** 
 *该值代表当前CandidateURI是如何从种子那里生成的,有如下生成方式： 
 *P:预先处理URL,一般是DNS,如DNS:www.baidu.com 
 *R:重定向URL 
 *E:嵌入式URL，如Frame、src等 
 *X:特殊嵌入式URL,如JS中的URL 
 *L:一般意义上的URL，如<ahref="www.baidu.com"> 
 *该属性除了可以记录从种子那来源方式的话同时还可以记录深度,因为 
 *该值是一层一层传递，每传递一层则增加一个以上字符.如此通过长度 
 *可以判断当前URL属于种子的第几层从而做到控制抓取深度,如果当 
 *前CandidateURI是种子,则该值为null 
 */ 
 privateStringpathFromSeed; 
  
 privateintschedulingDirective=NORMAL;//调度等级,默认为普通 
 privatetransientUURIuuri;//URL 
 privatetransientUURIvia;//来源URL 
 privateCharSequenceviaContext;//来源URL内容 

下面再介绍一下CrawlURI相关属性,前面说过CrawlURI和CandidateURI最大区别就是CrawlURI通过了调度器,这也就意味着CrawlURI会进入队列抓取,如此CrawlURI就会相比CandidateURI对很多属性来记录抓取情况,如处理器，下面请看代码以及注释:

    Java代码
    
  
 //数组用户保存alist成员的key，使得URI处理期间可以持久化访问.这个list中的所有的key在传递下去的处理链后面都不会被清理掉 
 privatestaticfinalList<Object>alistPersistentMember=newCopyOnWriteArrayList<Object>( 
 newString[]{A_CREDENTIAL_AVATARS_KEY}); 
 //一个CrawlURI所允许的最大外链接数(就是该CrawlURI本身网页里所包含的链接数)，默认为6000 
 publicstaticfinalintMAX_OUTLINKS=Integer.parseInt(System.getProperty( 
 CrawlURI.class.getName()+".maxOutLinks","6000")); 
 //放弃的外链接个数(当一个URL抽取出来的链接数超过MAX_OUTLINKS时就放弃,然后本变量累加) 
 transientprivateintdiscardedOutlinks=0; 
  
 publicstaticfinalintUNCALCULATED=-1;//网页内容长度,默认值 
 privateStringcachedCrawlURIString=null;//缓存的URL 
 privatebyte[]contentDigest=null;//网页内容指纹,对内容进行MD5值,该对象可以用于对比该URL是否有更新 
 privateStringcontentDigestScheme=null;//记录网页内容所采用算法，从配置文件里配置 
 privatelongcontentLength=UNCALCULATED;//相应内容长度 
 privatelongcontentSize=UNCALCULATED;//网页内容大小 
 privateStringcontentType=null;//网页内容类型 
 privateintdeferrals=0;//从先决条件URL延迟数 
  
 privateintfetchAttempts=0;//获取URL的个数 
 privateintfetchStatus=0;//获取URL内容状态,默认为0,表示没有尝试过 
 transientObjectholder;//所属的队列(WorkQueue) 
 intholderCost=UNCALCULATED;//成本 
 transientObjectholderKey;//所属队列的classkey 
 privatetransientHttpRecorderhttpRecorder=null;//记录网页内容 
 transientprivatebooleanlinkExtractorFinished=false;//抽取是否成功,如果成功则该URL不会再被抽取 
 transientprivateProcessornextProcessor;//下一个处理器 
 transientprivateProcessorChainnextProcessorChain;//下一条处理链 
 protectedlongordinal;//Crawl自增数目,用于广度优先抓取 
 transientCollection<Object>outLinks=newHashSet<Object>();//该URL抽取到的所有的连接 
 privatebooleanpost=false;//提交url是否post，对应HttpClient的HttpPost 
 privatebooleanprerequisite=false;//是否有优先URL要处理，一般是DNS 
 transientprivateintthreadNumber;//线程个数 
 privateStringuserAgent=null;//用户代理,表名当前身份 
 @Deprecated 
 privateintembedHopCount=UNCALCULATED; 
 @Deprecated 
 privateintlinkHopCount=UNCALCULATED;//跃点数,表示来自种子的第几层,该值可以控制抓取深度 

同时很多人在使用Heritrix的时候需要增加自己的属性,我之前也有这样的需求。不过那时是直接修改源代码增加几个属性,然后在抽取的时候将新的属性赋给抽取出来的URL即可。后来才发现完全没有这个必要,Heritrix已经提供了这样一个功能，可以自定义放入各种属性和属性值。同时Heritrix自己在运行过程中也是如此,把一些会动态变化的属性放入其中,如HttpStatus Code。下面就介绍下其相关原理以及如何使用这个功能:

1)原理：

CandidateURI里面有一个属性private transient AList alist;该属性实际上是一个HashTable,其中Key为属性,Value为属性值。如此一致贯穿整个抓取，可以随时动态读写。但由于该属性是transient,也就意味着HashTable里面的值不会被持久化，所以Heritrix在CrawlURI里面引入一个个变量来记录HashTable中需要持久化的Key,也就是我们所要持久化的属性了：private static final List<Object> alistPersistentMember = new CopyOnWriteArrayList<Object>( new String[] { A_CREDENTIAL_AVATARS_KEY });该属性类型为CopyOnWriteArrayList,也就是专门用于复制写的List,里面存放需要持久化的Key。所以当你需要某个HashTable中的某个Key持久化的时候，只需要在该变量里添加即可。

2)使用方法:

1.存放属性和属性值,变量可以按多种类型存放:

    Java代码
    
  
 //放入类型为Int的值 
 publicvoidputInt(Stringkey,intvalue){ 
 getAList().putInt(key,value); 
 } 
 //放入类型为Long的属性值 
 publicvoidputLong(Stringkey,longvalue){ 
 getAList().putLong(key,value); 
 } 
 //放入类型为Object的属性值 
 publicvoidputObject(Stringkey,Objectvalue){ 
 getAList().putObject(key,value); 
 } 
 //放入类型为String的属性值 
 publicvoidputString(Stringkey,Stringvalue){ 
 getAList().putString(key,value); 
 } 

2.获得属性和属性值：

    Java代码
    
  
 //获得属性的值,该值为Int类型 
 publicintgetInt(Stringkey){ 
 returngetAList().getInt(key); 
 } 
 //获得属性的值,该值为Long类型 
 publiclonggetLong(Stringkey){ 
 returngetAList().getLong(key); 
 } 
 //获得属性的值,该值为Object类型 
 publicObjectgetObject(Stringkey){ 
 returngetAList().getObject(key); 
 } 
 //获得属性的值,该值为String类型 
 publicStringgetString(Stringkey){ 
 returngetAList().getString(key); 
 } 

3.查看是否包含某个属性:

    Java代码
    
  
 //查看是否包含某个属性 
 publicbooleancontainsKey(Stringkey){ 
 returngetAList().containsKey(key); 
 } 

4.获得所有的属性:

    Java代码
    
  
 //返回所有的属性值 
 publicIteratorkeys(){ 
 returngetAList().getKeys(); 
 } 

5.让某个属性持久化:

    Java代码
    
  
 publicvoidmakeHeritable(Stringkey){ 
 @SuppressWarnings("unchecked") 
 List<String>heritableKeys=(List<String>)getObject(A_HERITABLE_KEYS); 
 if(heritableKeys==null){ 
 heritableKeys=newArrayList<String>(); 
 heritableKeys.add(A_HERITABLE_KEYS); 
 putObject(A_HERITABLE_KEYS,heritableKeys); 
 } 
 heritableKeys.add(key); 
 } 

6.让某个属性不持久化:

    Java代码
    
  
 publicvoidmakeNonHeritable(Stringkey){ 
 ListheritableKeys=(List)getObject(A_HERITABLE_KEYS); 
 if(heritableKeys==null){ 
 return; 
 } 
 heritableKeys.remove(key); 
 if(heritableKeys.size()==1){ 
 //onlyremainingheritablekeyisitself;disablecompletely 
 remove(A_HERITABLE_KEYS); 
 } 
 }