使用Heritrix WebUI创建一个新的抓取任务

原文网址:http://hi.baidu.com/syimiaoa/blog/item/999e29f7934cdd26720eec84.html

heritrix默认使用8080端口,要保证系统端口没有冲突。之后便可以访问 http://127.0.0.1:8080 http://localhost:8080 使用 heritrix 提供的WUI,即Web管理端。并且使用"admin/admin"登录。

 

 

 

 

[2]选Jobs选项,设置抓取页为http://news.sohu.com 具体设置如图:

图1: 处理链设置
           设置方法很简单,就是在下拉列表中选择好,点击Add添加即可。之后的设置可参考图中内容,要注意每一项处理器设置都是有顺序关系的。每一项的名称其实都揭示了其作用.
      
[3] 选择Jobs菜单的“Settings”项进入运行参数设置页面 . 进入运行参数设置页面后,有很多可以设定的参数,对于需要了解详情的设置,请点击设置框左边的“?”号,可看到弹出的帮助信息。最简单的可只更改“HTTP-Header”项中的内容,更改其属性值“user-agent”和“from”。修改内容如图2:
图2 运行参数设置中的“HTTP-Header”项
           图2中红色框内是修改前后对照。其中“user-agent”中的“PROJECT_URL_HERE”对应自己的完整URL地址,“from”中设置自己的合法email地址,这两项设置其实可随便设置,只要格式规则合法即可。图中的@VERSION@设置为1.12.1,即1.12.1版本的。
   [4] 设置完成后,点击如图3所示任务提交菜单项,即完成全部任务的建立工作。
           设置完成后,点击如图9所示任务提交菜单项,即完成全部任务的建立工作。
图3 任务提交菜单
   [5]运行任务
           通过提交设定好的任务,页面返回到Jobs的主菜单,可看到如图4画面:
图4 任务已经建立
           在图4中,我们可以看到红色字说明一个任务已经被建立,在页面下方有任务的一些信息和设置菜单。此时点击左上角的“Console”菜单,返回主页面,看到如图5:
图4 等待开始的任务
           按照图5中的红色说明,点击“Start”可以开始任务。如图5:
图5已经激活的任务
           点击左下角红色框标出的“Refresh”选项,可以刷新任务状态。图6是刚刚开始的任务状态:
图6 刚刚开始的任务

在图6中,我们可以看到,要暂停当前任务可点击任务状态旁的选项“Pause”。

抓取页面会存放在我的工作目录下的mirror文件夹内,如图7:

 

 

 

图7抓取后的网站和文件保存结构


图7中可以看到,每一个站点的URL地址即为保存的目录名称,

其文件和对应的服务目录结构被保存到此目录下面。此处看出,Heritrix更像一个强大的网站下载工具。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值