最近需要用Heritrix爬取大量的博客文章,然后进行分析并内容提取。
由于我只需要博客网站中的文章部分(如新浪博客的文章正则表达式是http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*),其它博客内容(如相片、个人介绍等)都不需要,所以必须要用正则表达式控制要下载下来URL。要实现“只爬取某种格式的URL网页”,我们可以通过扩展Heritrix下的org.archive.crawler.extractor.Extractor类得到实现。然而这种方式有一个不足的地方,由于我们已经限定了要爬取的URL格式就是http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*,所以这时URL队列中存放的URL格式都是http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*,这样问题就来了:如果当前文章页面中含有另外一篇不重复文章的URL,那么爬虫继续爬取;但如果当前文章页面中已经没有其它不重复文章的URL了,那么爬虫就结束往后的爬取。我们仔细想想,一篇文章中出现其它不重复文章URL的概率应该是比较小的,反而在博客主页中出现其它不重复文章的URL的概率则是比较大的。如果只通过文章来爬取文章,那么整个爬取过程很快就结束,得到的博客文章数目就相对较少,不满足我的“大量”的需求。如果能将博客主页也加到URL的分析队列中,那么爬虫就可以爬到更多的文章了。
或许我们可以通过对org.archive.crawler.extractor.Extractor进一步修改,对正则表达式的限定放宽一点,把博客主页的URL格式也加进去,但这样会把博客主页也一并下载到磁盘上。很明显这时十分浪费时间和磁盘空间的。能否将博客主页连同博客文章一起作为Heritrix的URL分析队列,而保存到磁盘的时候则只将博客文章保存,博客主页不保存呢?
答案是可以的。这时我们需要对另外一个类org.archive.crawler.postprocessor.FrontierScheduler的schedule方法进行扩展。
该方法默认只执行下面一句:
getController().getFrontier().schedule(caUri);
它将Extractor爬到的URL队列继续调度,这个过程就包括了下载!
所以只要我们修改这个方法,就能够实现将URL队列中的某些URL过滤掉,如可以修改为:
protected void schedule(CandidateURI caUri) {
// dns:blog.sina.com.cn
String url = caUri.toString();
if (url.equals("dns:blog.sina.com.cn")||url.matches("http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*")) {
getController().getFrontier().schedule(caUri);
}
}
就可以将新浪博客主页的URL过滤掉,只保存博客文章URL(即满足http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*的URL)。
由此我们可以对org.archive.crawler.extractor.Extractor和org.archive.crawler.postprocessor.FrontierScheduler作出感性的认识:
Extractor用于分析一个页面中包含特定格式的URL,并将该特定格式的URL添加到某个队列中,好让这个特定格式的URL能在后面分析到。也就是说Extractor仅仅用于分析而已。
FrontierScheduler则将已经分析到的URL拿到另外一个队列中进行其它工作(包括保存到磁盘上)。