关于heritrix的性能

1.Heritrix可以以任何URL作为种子,只要你这个种子URL里包含其他URL,就可以一直不停的抓取下去,直到所有URL抓取完毕。

2.垂直搜索需要特殊控制,如抓取你想要抓的URL,以及抽取你要抽取你要的内容。Heritrix的高度可扩展性可以帮你解决这些问题。如继承Frontier、Extractor、Writer,以及自定义Rule都可以。

(1)Extrator:

  1. package org.archive.crawler.extractor;  
  2.   
  3. import java.io.IOException;  
  4. import java.util.regex.Matcher;  
  5. import java.util.regex.Pattern;  
  6.   
  7. import org.apache.commons.httpclient.URIException;  
  8. import org.archive.crawler.datamodel.CrawlURI;  
  9. import org.archive.io.ReplayCharSequence;  
  10. import org.archive.util.HttpRecorder;  
  11.   
  12. /** 
  13.  * I ignore the log information. 
  14.  * @author Administrator 
  15.  * 
  16.  */  
  17. public class CCERExtractor extends Extractor{  
  18.       
  19.     /** 
  20.      * if the url starts with http          ----        if it is under http://www.pku.edu.cn, not then "not" 
  21.      * else if matches mailto or javascript ----        "not" 
  22.      * else                                 ----        "yes" 
  23.      */  
  24.     public static final String pattern_ahref = "<[aA] href=\"([^\"]+)\"";// group(1)  
  25.       
  26.     public CCERExtractor(String name){  
  27.         super(name,"CCER Extractor");  
  28.     }  
  29.       
  30.     public CCERExtractor(String name, String description) {  
  31.         super(name, description);  
  32.     }  
  33.   
  34.     @Override  
  35.     protected void extract(CrawlURI curi) {  
  36.         HttpRecorder hr = curi.getHttpRecorder();  
  37.         ReplayCharSequence cs = null;  
  38.         try {  
  39.             cs = hr.getReplayCharSequence();  
  40.         } catch (IOException e) {  
  41.             e.printStackTrace();  
  42.         }  
  43.         if(cs == null){  
  44.             return;  
  45.         }  
  46.           
  47.         String content = cs.toString();  
  48.         Matcher matcher = Pattern.compile(CCERExtractor.pattern_ahref).matcher(content);  
  49.         while(matcher.find()){  
  50.             String newUrl = matcher.group(1);  
  51.             if(newUrl.startsWith("http")){//find the ccer website  
  52.                 if(newUrl.startsWith("http://www.pku.edu.cn")){// case 1 that matches  
  53.                     createAndAddLinkRelativeToBase(curi, newUrl, Link.NAVLINK_HOP);  
  54.                 }  
  55.             }else if(!newUrl.toLowerCase().startsWith("mailto") && !newUrl.toLowerCase().startsWith("javascript")){//case 2 that matches. Ignore the mailto and javascript href.   
  56.                 if(newUrl.trim().startsWith("/")){  
  57.                     newUrl = newUrl.trim().substring(1).trim();  
  58.                 }  
  59.                 newUrl = "http://www.ccer.pku.edu.cn/cn/" + newUrl;//" http://www.ccer.pku.edu.cn/cn/ " should be added to the first  
  60.                 createAndAddLinkRelativeToBase(curi, newUrl, Link.NAVLINK_HOP);// make sure that the newUrl is available.  
  61.             }  
  62.         }  
  63.     }  
  64.   
  65.     private void createAndAddLinkRelativeToBase(CrawlURI curi, String newUrl, char hopType){  
  66.         try {  
  67.             curi.createAndAddLinkRelativeToBase(newUrl, "", hopType);  
  68.         } catch (URIException e) {  
  69.             e.printStackTrace();  
  70.         }  
  71.     }  
  72. }  
Ps:!!!!! 在conf/modules下的Processor.options下将这个新的解析器加入进去,那么在配置的时候便可以出现这个选项。但是必须注意: Crawler是严格按照配置的信息来进行抓取的,所以CCERExtractor必须在ExtractorHttp后面 。在options里面的位置无所谓,只要放到extractor中即可,没有先后顺序。

!!!!!!

(2)Frontier:

FrontierScheduler 是 org.archive.crawler.postprocessor 包中的一个类,它的作用是将在 Extractor 中所分析得出的链接加入到 Frontier 中,以待继续处理。在该类的 innerProcess(CrawlURI) 函数中,首先检查当前链接队列中是否有一些属于高优先级的链接。如果有,则立刻转走进行处理;如果没有,则对所有的链接进行遍历,然后调用 Frontier 中的 schedule() 方法加入队列进行处理。其代码如图 20 所示。

图 20. FrontierScheduler 类中的 innerProcess() 和 schedule() 函数
图 20. FrontierScheduler 类中的 innerProcess() 和 schedule() 函数

从上面的代码可以看出 innerProcess() 函数并未直接调用 Frontier 的 schedule() 方法,而是调用自己内部的 schedule() 方法,进而在这个方法中再调用 Frontier 的 schedule() 方法。而 FrontierScheduler 的 schedule() 方法实际上直接将当前的候选链接不加任何判断地直接加入到抓取队列当中了。这种方式为 FrontierScheduler 的扩展留出了很好的接口。

这里我们需要构造一个 FrontierScheduler 的派生类 FrontierSchedulerForBjfu,这个类重载了 schedule(CandidateURI caUri) 这个方法,限制抓取的 URI 必须包含“bjfu”,以保证抓取的链接都是北林内部的地址。派生类 FrontierSchedulerForBjfu 具体代码如图 21 所示。

图 21. 派生类 FrontierSchedulerForBjfu
图 21. 派生类 FrontierSchedulerForBjfu

然后,在 modules 文件夹中的 Processor.options 中添加一行“org.archive.crawler.postprocessor.FrontierSchedulerForBjfu|FrontierSchedulerForBjfu”,这样在爬虫的 WebUI 中就可以选择我们扩展的 org.archive.crawler.postprocessor.FrontierSchedulerForBjfu 选项。如图 22 所示。

图 22. 用 FrontierSchedulerForBjfu 代替 FrontierScheduler
图 22. 用 FrontierSchedulerForBjfu 代替 FrontierScheduler



3.Heritrix目前对中文支持部分不够,比如种子URl中不能存在中文,以及抽取新URL时,有中文的URl抽取不到,其他的我还没发现。这些需要你改部分源代码(主要是正则表达式)。
4.你想抓取智联招聘的IT方面的工作信息,看你上面长长的URL,肯定是经过浏览器处理后的URL,你可能是在智联招聘的搜索框中输入了你要搜索的条件后点搜索浏览器所形成的URL。所以你要进入其源代码,根据他的FORM,自己去获取URL,这种URL没有经过浏览器处理。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值