Heritrix实现对某种URL只爬取而不将其网页保存到磁盘的方法

最近需要用Heritrix爬取大量的博客文章,然后进行分析并内容提取。

 

由于我只需要博客网站中的文章部分(如新浪博客的文章正则表达式是http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*),其它博客内容(如相片、个人介绍等)都不需要,所以必须要用正则表达式控制要下载下来URL。要实现“只爬取某种格式的URL网页”,我们可以通过扩展Heritrix下的org.archive.crawler.extractor.Extractor类得到实现。然而这种方式有一个不足的地方,由于我们已经限定了要爬取的URL格式就是http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*,所以这时URL队列中存放的URL格式都是http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*,这样问题就来了:如果当前文章页面中含有另外一篇不重复文章的URL,那么爬虫继续爬取;但如果当前文章页面中已经没有其它不重复文章的URL了,那么爬虫就结束往后的爬取。我们仔细想想,一篇文章中出现其它不重复文章URL的概率应该是比较小的,反而在博客主页中出现其它不重复文章的URL的概率则是比较大的。如果只通过文章来爬取文章,那么整个爬取过程很快就结束,得到的博客文章数目就相对较少,不满足我的“大量”的需求。如果能将博客主页也加到URL的分析队列中,那么爬虫就可以爬到更多的文章了。

 

或许我们可以通过对org.archive.crawler.extractor.Extractor进一步修改,对正则表达式的限定放宽一点,把博客主页的URL格式也加进去,但这样会把博客主页也一并下载到磁盘上。很明显这时十分浪费时间和磁盘空间的。能否将博客主页连同博客文章一起作为Heritrix的URL分析队列,而保存到磁盘的时候则只将博客文章保存,博客主页不保存呢?

 

答案是可以的。这时我们需要对另外一个类org.archive.crawler.postprocessor.FrontierScheduler的schedule方法进行扩展。

该方法默认只执行下面一句:

getController().getFrontier().schedule(caUri);

它将Extractor爬到的URL队列继续调度,这个过程就包括了下载!

所以只要我们修改这个方法,就能够实现将URL队列中的某些URL过滤掉,如可以修改为:

protected void schedule(CandidateURI caUri) {
//        dns:blog.sina.com.cn
        String url = caUri.toString();

        if (url.equals("dns:blog.sina.com.cn")||url.matches("http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*")) {
            getController().getFrontier().schedule(caUri);
        }
    }

就可以将新浪博客主页的URL过滤掉,只保存博客文章URL(即满足http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*的URL)。

 

由此我们可以对org.archive.crawler.extractor.Extractor和org.archive.crawler.postprocessor.FrontierScheduler作出感性的认识:

Extractor用于分析一个页面中包含特定格式的URL,并将该特定格式的URL添加到某个队列中,好让这个特定格式的URL能在后面分析到。也就是说Extractor仅仅用于分析而已。

FrontierScheduler则将已经分析到的URL拿到另外一个队列中进行其它工作(包括保存到磁盘上)。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值