Heritrix 工具化

            Heritrix 工具化

为了方便开发,我们需要定制Heritrix然后打包,作为一个工具来使用。

 为此我们需要:

1) 免登陆

2) 统一输出路径

3) 默认order.xml

4) 用bat启动并加载自己的heritrix.jar

 

1.   免登陆

在webapp的web.xml中把安全过滤的后缀.Jsp改为其他后缀

 

2.   统一输出路径

在org.archive.crawler.admin这个包中有很多与操作界面相关的后台逻辑处理

找到CrawlJobHandler.java,寻找“jobdir”看看那些有“-”相关的代码,修改命名方式即可。

3.   默认order.xml

打开之前设定的jobs文件夹的工作,然后将order.xml复制到工程默认即可。

4.   用bat启动并加载自己的heritrix.jar

把工程打包成jar包,覆盖原例子程序的admin,conf。编写bat文件,搞定!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值