heritrix爬虫的定制--筛选格式

     原文作者:刘夏(博客:http://)www.beyondc.cn

 

 

 可能这就是自己最近研究了heritrix这么久,可以拿得出手的一点点突破。

     首先在eclipse里打开heritrix工程,在my.psotprocess包下新建一个class。命名什么都随便。代码就copy现有的FrontierSchedulerFor163Mobile就行了。会有2处错误,都是很简单的,把里面的类名和文件名统一就可以了。
 

     找到如下代码:

Java 代码
  1.     
  2.  try {       
  3.         if (url.indexOf("mobile.163.com/0011/product/0011000B/product") != -1      
  4.   124;124; url.indexOf("mobile.163.com/0011/product/0011000B/mark") != -1      
  5.   124;124; url.endsWith(".gif")       
  6.   124;124; url.endsWith(".jpg")       
  7.   124;124; url.endsWith(".jpeg")       
  8.   124;124; url.indexOf("robots.txt") != -1      
  9.   124;124; url.indexOf("dns:") != -1) {       
  10. if (url.indexOf("#") == -1) {       
  11.   getController().getFrontier().schedule(caUri);       
  12.     }       
  13. else {       
  14.   return;       
  15. }       
  16.           } catch (Exception e) {       
  17.          e.printStackTrace();       
  18.           } finally {       
  19.    }       
  20.       
  21.  注意红   


色部分代码的含义。就是在url链接中如果包含#就会返回相应的值,与-1不相等,那么就不会放入时刻表里面,那么就不会爬取。同样,如果把你所不需要的格式替换掉#,那么爬虫不会爬取此类格式了。
     例如写成:
                    if (url.indexOf("jpg") == -1) {
      getController().getFrontier().schedule(caUri);
     那么在mirror镜像里就不会出现jpg格式的文件的。
     不过注意到是,不能排除html格式,因为在job设置的时候不是选了个exctractorHTML吗?呵呵……

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值