刚接触heritrix,配置流程如下:
1.在官网下载包:http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/
2将dist.zip和src.zip解压到文件夹中
3提取src.zip中的heritrix-3.2.0-src\engine\adhoc.keystore存放至heritrix-3.2.0-dist\bin目录下。这个步骤是解决无法用cmd打开heritrix的问题。
4.运行heritrix。用cmd进入到heritrix-3.2.0-dist\bin目录下输入heritrix -a admin:admin运行结果:
5.在浏览器中输入https://localhost:8443。浏览器可能会阻止,点击继续就可以了,然后输入用户名和密码admin。
6.进入主页面创建job
7之后刷新页面面可以看到job下的test,点击进入在点击configuration进入configuration页面进行信息配置:
特别提醒的字段jobName为这个job的名字
URLS HERE下面的url为要爬取的页面
operatorContactUrl为运行heritrix的地址
其他圈起来的可以随便填
这里可以完善信息,填写heritrix的版本号和填写邮箱地址。
将beanid为warcWriter的bean的class改为如图:这个可以改变抓取内容在计算机中的存储方式。这个为将网页以普通文件的形式存放。
8.最后点击保存,回到主页。点击job下的test,进入test页面准备抓取 。
依次build->launch->checkpoint->unpause进行抓取
build:配置信息
launch:准备抓取
checkpoint:检查
unpause:抓取
最后可以pause停止抓取。
抓取的结果在heritrix-3.2.0-dist\bin\jobs\test(crawl date)\mirror