使用heritrix抓取特定页面

扩展 FrontierScheduler 来抓取特定网站内容

FrontierScheduler 是 org.archive.crawler.postprocessor 包中的一个类,它的作用是将在 Extractor 中所分析得出的链接加入到 Frontier 中,以待继续处理。在该类的 innerProcess(CrawlURI) 函数中,首先检查当前链接队列中是否有一些属于高优先级的链接。如果有,则立刻转走进行处理;如果没有,则对所有的链接进行遍历,然后调用 Frontier 中的 schedule() 方法加入队列进行处理。

下面以抓取时光网为例:

package my.processor;

import java.util.logging.Logger;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.postprocessor.FrontierScheduler;

public class FrontierSchedulerForMtime extends FrontierScheduler {


private static final long serialVersionUID = 1L;

private static Logger LOGGER = Logger
.getLogger(FrontierSchedulerForMtime.class.getName());

public FrontierSchedulerForMtime(String name) {
super(name);
// TODO Auto-generated constructor stub
}
protected void schedule(CandidateURI caUri){
String uri = caUri.toString();
//只抓取包含"mtime.com"的URI
if(uri.contains("mtime")){
System.out.println(uri);
getController().getFrontier().schedule(caUri);
}
else
{
return;
}
}

}


使用web管理界面设置

新建一个JOB,对照用户说明和每个设置项的说明设置相应的模块,对于抓取特定页面的任务关键点有:填写好种子地址,确保通过种子地址可以分析到你想要的页面,这里可以放入多个种子,一行一个。

模块选择中,crawl scope选择org.archive.crawler.deciderules.DecidingScope,Extractors Processors 根据自己要求选择:org.archive.crawler.extractor.ExtractorHTTP首先要选择且放在首位,org.archive.crawler.extractor.ExtractorHTML也为必需,其他的可以全部移除,Writers Processors :如果是要保存为arc文档格式的选择ARCWriterProcessor,如果直接保存镜像文件的选择MirrorWriterProcessor,具体的保存地址在具体的设置里会有,也可以同时选择几种文件保存方式,heritrix会同时完成,其它的设置默认即可。

在子模块部分decide-rules 加入MatchesListRegExpDecideRule,其它默认。 在具体设置里需要注意的是:seeds-as-surt-prefixes设为false,MatchesListRegExpDecideRule的regexp-list主要设置需要抓取页面的特定格式,可以使用正则表达式,其中.*匹配多个字符,(如果对正则表达式不熟悉可以在http://localhost:8080/help/regexpr.jsp页面进行测试) max-hops的值表示从种子地址开始抓取的深度,这个需要根据实际情况修改,默认值为20.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值