配置和简单运行Heritrix3.2.0(环境为win10 64)

刚接触heritrix,配置流程如下:
1.在官网下载包:http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/
这里写图片描述

2将dist.zip和src.zip解压到文件夹中

3提取src.zip中的heritrix-3.2.0-src\engine\adhoc.keystore存放至heritrix-3.2.0-dist\bin目录下。这个步骤是解决无法用cmd打开heritrix的问题。

4.运行heritrix。用cmd进入到heritrix-3.2.0-dist\bin目录下输入heritrix -a admin:admin运行结果:
这里写图片描述

5.在浏览器中输入https://localhost:8443。浏览器可能会阻止,点击继续就可以了,然后输入用户名和密码admin。

6.进入主页面创建job
这里写图片描述

7之后刷新页面面可以看到job下的test,点击进入在点击configuration进入configuration页面进行信息配置:
这里写图片描述
这里写图片描述
特别提醒的字段jobName为这个job的名字
URLS HERE下面的url为要爬取的页面
operatorContactUrl为运行heritrix的地址
其他圈起来的可以随便填
这里写图片描述
这里可以完善信息,填写heritrix的版本号和填写邮箱地址。
这里写图片描述
将beanid为warcWriter的bean的class改为如图:这个可以改变抓取内容在计算机中的存储方式。这个为将网页以普通文件的形式存放。

8.最后点击保存,回到主页。点击job下的test,进入test页面准备抓取 。
依次build->launch->checkpoint->unpause进行抓取
build:配置信息
launch:准备抓取
checkpoint:检查
unpause:抓取
最后可以pause停止抓取。

抓取的结果在heritrix-3.2.0-dist\bin\jobs\test(crawl date)\mirror

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值