使用heritrix抓取特定页面

最新推荐文章于 2024-08-14 17:26:10 发布

longinus41

最新推荐文章于 2024-08-14 17:26:10 发布

阅读量3.3k

点赞数

分类专栏： Heritrix 爬虫文章标签：正则表达式 constructor string class 文档任务

本文链接：https://blog.csdn.net/longinus41/article/details/7031599

版权

Heritrix 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

爬虫

2 篇文章 0 订阅

订阅专栏

扩展 FrontierScheduler 来抓取特定网站内容

FrontierScheduler 是 org.archive.crawler.postprocessor 包中的一个类，它的作用是将在 Extractor 中所分析得出的链接加入到 Frontier 中，以待继续处理。在该类的 innerProcess(CrawlURI) 函数中，首先检查当前链接队列中是否有一些属于高优先级的链接。如果有，则立刻转走进行处理；如果没有，则对所有的链接进行遍历，然后调用 Frontier 中的 schedule() 方法加入队列进行处理。

下面以抓取时光网为例：

package my.processor;

import java.util.logging.Logger;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.postprocessor.FrontierScheduler;

public class FrontierSchedulerForMtime extends FrontierScheduler {

private static final long serialVersionUID = 1L;

private static Logger LOGGER = Logger
.getLogger(FrontierSchedulerForMtime.class.getName());

public FrontierSchedulerForMtime(String name) {
super(name);
// TODO Auto-generated constructor stub
}
protected void schedule(CandidateURI caUri){
String uri = caUri.toString();
//只抓取包含"mtime.com"的URI
if(uri.contains("mtime")){
System.out.println(uri);
getController().getFrontier().schedule(caUri);
}
else
{
return;
}
}

}

使用web管理界面设置

新建一个JOB，对照用户说明和每个设置项的说明设置相应的模块，对于抓取特定页面的任务关键点有：填写好种子地址，确保通过种子地址可以分析到你想要的页面，这里可以放入多个种子，一行一个。

模块选择中，crawl scope选择org.archive.crawler.deciderules.DecidingScope，Extractors Processors 根据自己要求选择：org.archive.crawler.extractor.ExtractorHTTP首先要选择且放在首位，org.archive.crawler.extractor.ExtractorHTML也为必需，其他的可以全部移除，Writers Processors ：如果是要保存为arc文档格式的选择ARCWriterProcessor，如果直接保存镜像文件的选择MirrorWriterProcessor，具体的保存地址在具体的设置里会有，也可以同时选择几种文件保存方式，heritrix会同时完成，其它的设置默认即可。

在子模块部分decide-rules 加入MatchesListRegExpDecideRule，其它默认。在具体设置里需要注意的是：seeds-as-surt-prefixes设为false，MatchesListRegExpDecideRule的regexp-list主要设置需要抓取页面的特定格式，可以使用正则表达式，其中.*匹配多个字符，（如果对正则表达式不熟悉可以在http://localhost:8080/help/regexpr.jsp页面进行测试） max-hops的值表示从种子地址开始抓取的深度，这个需要根据实际情况修改，默认值为20.

longinus41

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
使用heritrix抓取特定页面

扩展 FrontierScheduler 来抓取特定网站内容FrontierScheduler 是 org.archive.crawler.postprocessor 包中的一个类，它的作用是将在 Extractor 中所分析得出的链接加入到 Frontier 中，以待继续处理。在该类的 innerProcess(CrawlURI) 函数中，首先检查当前链接队列中是否有一些属于高优先级的链
复制链接

扫一扫

专栏目录