Heritrix3.1.1使用教程

最新推荐文章于 2021-02-16 23:16:41 发布

郝文龙

最新推荐文章于 2021-02-16 23:16:41 发布

阅读量1k

点赞数

分类专栏： Heritrix 文章标签： Heritrix

本文链接：https://blog.csdn.net/a639735331/article/details/53868893

版权

Heritrix 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文讲如何安装和使用 Heritrix 最新的 3.1.0 版
下载地址：
http://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/
1.在cmd下面进入Heritrix的bin目录下
输入heritrix -a admin:admin，弹出新窗口，新窗口中运行heritrix
如果不能正常启动可能是端口被占用
2.浏览中输入https://localhost:8443/
提示输入用户名和密码分别是 admin admin
注：有些浏览器可能无法访问，认为是不安全的url需做特殊设置比如IE ,本人是采用Google浏览器
得到界面如下
这里写图片描述
第一个输入框中写入任意Job名称，如sohu
第二个输入框如填写一个已存在的作业目录的路径，如果不写则默认存储在bin目录下的jobs文件夹下（不需填写）
3.点击create后，在任务列表中能看到新建的任务：

4.点击”sohu”任务：
这里写图片描述
crawler-beans.cxml是配置本次抓取任务的配置文件
5.点击edit：
修改配置文件中的内容后，点击左上角的”save change”保存本次修改
需修改以下几处
如果不能修改可以直接到目录下修改配置文件
E:\work\lucene+heritrix\heritrix-3.1.0\bin\jobs\lagou\crawler-beans.cxml
第一处：
第一个参数：operatorContactUrl 可以填写你的ip或者写成 http://localhost
第二个参数： jobName 任务名称
第三个参数：description 任务描述
metadata.operatorContactUrl=http://localhost
metadata.jobName=sohu
metadata.description=Basic crawl starting with useful defaults

第二处：

URLS HERE

https://www.lagou.com/
配置搜索种子网站的列表本案例从搜狐新闻抓取网页
第三处：

此处配置和第一处保持一致
这三个地方配置好，点击最上面的“Save changes”保存所有的配置文件，就可以运行这个抓取任务了
返回到任务控制页面让任务运行起来：
这里写图片描述
1）点击“build”编译当前的配置。
2）点击“launch”按钮运行当前任务至挂起状态，如果job已经运行，则先点击“teardown”按钮停止任务；
3）这时任务处于挂起状态（刷新以下页面，否则unpause不可点击），点击“unpause”即立即启动任务。
这里写图片描述
4）pause 暂停任务
5）terminate 终止任务
在D:\heritrix-3.1.0\bin\jobs\sohu\20161225024940\warcs目录下有一个逐步增大的文件，这就是抓取下来的网页，此文件无法查看每个网页的内容
如果要看到每个抓取的页面，可以将配置文件的warcWriter这个bean的class改为org.archive.modules.writer.MirrorWriterProcessor，这样就下载的网页是以镜像文件的形式保存在，一般存放在项目根目录下的mirror目录下

郝文龙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Heritrix3.1.1使用教程

本文讲如何安装和使用 Heritrix 最新的 3.1.0 版下载地址： http://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/ 1.在cmd下面进入Heritrix的bin目录下输入heritrix -a admin:admin，弹出新窗口，新窗口中运行heritrix 2.浏览中输入https:/
复制链接

扫一扫