Heritrix实现对某种URL只爬取而不将其网页保存到磁盘的方法

最新推荐文章于 2024-08-03 19:27:22 发布

起个马甲好困难

最新推荐文章于 2024-08-03 19:27:22 发布

阅读量1.3k

点赞数

分类专栏：搜索引擎文章标签：搜索引擎爬虫

搜索引擎专栏收录该内容

17 篇文章 0 订阅

订阅专栏

最近需要用Heritrix爬取大量的博客文章，然后进行分析并内容提取。

由于我只需要博客网站中的文章部分（如新浪博客的文章正则表达式是http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*），其它博客内容（如相片、个人介绍等）都不需要，所以必须要用正则表达式控制要下载下来URL。要实现“只爬取某种格式的URL网页”，我们可以通过扩展Heritrix下的org.archive.crawler.extractor.Extractor类得到实现。然而这种方式有一个不足的地方，由于我们已经限定了要爬取的URL格式就是http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*，所以这时URL队列中存放的URL格式都是http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*，这样问题就来了：如果当前文章页面中含有另外一篇不重复文章的URL，那么爬虫继续爬取；但如果当前文章页面中已经没有其它不重复文章的URL了，那么爬虫就结束往后的爬取。我们仔细想想，一篇文章中出现其它不重复文章URL的概率应该是比较小的，反而在博客主页中出现其它不重复文章的URL的概率则是比较大的。如果只通过文章来爬取文章，那么整个爬取过程很快就结束，得到的博客文章数目就相对较少，不满足我的“大量”的需求。如果能将博客主页也加到URL的分析队列中，那么爬虫就可以爬到更多的文章了。

或许我们可以通过对org.archive.crawler.extractor.Extractor进一步修改，对正则表达式的限定放宽一点，把博客主页的URL格式也加进去，但这样会把博客主页也一并下载到磁盘上。很明显这时十分浪费时间和磁盘空间的。能否将博客主页连同博客文章一起作为Heritrix的URL分析队列，而保存到磁盘的时候则只将博客文章保存，博客主页不保存呢？

答案是可以的。这时我们需要对另外一个类org.archive.crawler.postprocessor.FrontierScheduler的schedule方法进行扩展。

该方法默认只执行下面一句：

getController().getFrontier().schedule(caUri);

它将Extractor爬到的URL队列继续调度，这个过程就包括了下载！

所以只要我们修改这个方法，就能够实现将URL队列中的某些URL过滤掉，如可以修改为：

protected void schedule(CandidateURI caUri) {
//       dns:blog.sina.com.cn
       String url = caUri.toString();

       if (url.equals("dns:blog.sina.com.cn")||url.matches("http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*")) {
           getController().getFrontier().schedule(caUri);
       }
   }

就可以将新浪博客主页的URL过滤掉，只保存博客文章URL（即满足http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*的URL）。

由此我们可以对org.archive.crawler.extractor.Extractor和org.archive.crawler.postprocessor.FrontierScheduler作出感性的认识：

Extractor用于分析一个页面中包含特定格式的URL，并将该特定格式的URL添加到某个队列中，好让这个特定格式的URL能在后面分析到。也就是说Extractor仅仅用于分析而已。

FrontierScheduler则将已经分析到的URL拿到另外一个队列中进行其它工作（包括保存到磁盘上）。

起个马甲好困难

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Heritrix实现对某种URL只爬取而不将其网页保存到磁盘的方法

最近需要用Heritrix爬取大量的博客文章，然后进行分析并内容提取。由于我只需要博客网站中的文章部分（如新浪博客的文章正则表达式是http://blog.sina.com.cn/s/blog_[0-9a-z]{16}.html(\\?tj=1)*），其它博客内容（如相片、个人介绍等）都不需要，所以必须要用正则表达式控制要下载下来URL。要实现“只爬取某种格式的URL网页”，我们可以通过
复制链接

扫一扫

专栏目录