Heritrix3.1.1使用教程

本文讲如何安装和使用 Heritrix 最新的 3.1.0 版
下载地址:
http://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/
1.在cmd下面进入Heritrix的bin目录下
输入heritrix -a admin:admin,弹出新窗口,新窗口中运行heritrix
如果不能正常启动可能是端口被占用
2.浏览中输入https://localhost:8443/
提示输入用户名 和 密码 分别是 admin admin
注:有些浏览器可能无法访问,认为是不安全的url需做特殊设置 比如IE ,本人是采用Google浏览器
得到界面如下
这里写图片描述
第一个输入框中写入任意Job名称,如sohu
第二个输入框如填写一个已存在的作业目录的路径,如果不写则默认存储在bin目录下的jobs文件夹下(不需填写)
3.点击create后,在任务列表中能看到新建的任务:
这里写图片描述
4.点击”sohu”任务:
这里写图片描述
crawler-beans.cxml是配置本次抓取任务的配置文件
5.点击edit:
修改配置文件中的内容后,点击左上角的”save change”保存本次修改
需修改以下几处
如果不能修改可以直接到目录下修改配置文件
E:\work\lucene+heritrix\heritrix-3.1.0\bin\jobs\lagou\crawler-beans.cxml
第一处:
第一个参数:operatorContactUrl 可以填写你的ip或者写成 http://localhost
第二个参数: jobName 任务名称
第三个参数:description 任务描述
metadata.operatorContactUrl=http://localhost
metadata.jobName=sohu
metadata.description=Basic crawl starting with useful defaults

第二处:

URLS HERE

https://www.lagou.com/
配置搜索种子网站的列表本案例从搜狐新闻抓取网页
第三处:











此处配置和第一处保持一致
这三个地方配置好,点击最上面的“Save changes”保存所有的配置文件,就可以运行这个抓取任务了
返回到任务控制页面让任务运行起来:
这里写图片描述
1)点击“build”编译当前的配置。
2)点击“launch”按钮运行当前任务至挂起状态,如果job已经运行,则先点击“teardown”按钮停止任务;
3)这时任务处于挂起状态(刷新以下页面,否则unpause不可点击),点击“unpause”即立即启动任务。
这里写图片描述
4)pause 暂停任务
5)terminate 终止任务
在D:\heritrix-3.1.0\bin\jobs\sohu\20161225024940\warcs目录下有一个逐步增大的文件,这就是抓取下来的网页,此文件无法查看每个网页的内容
如果要看到每个抓取的页面,可以将配置文件的warcWriter这个bean的class改为org.archive.modules.writer.MirrorWriterProcessor,这样就下载的网页是以镜像文件的形式保存在,一般存放在项目根目录下的mirror目录下

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郝文龙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值