Heritrix 工具化
为了方便开发,我们需要定制Heritrix然后打包,作为一个工具来使用。
为此我们需要:
1) 免登陆
2) 统一输出路径
3) 默认order.xml
4) 用bat启动并加载自己的heritrix.jar
1. 免登陆
在webapp的web.xml中把安全过滤的后缀.Jsp改为其他后缀
2. 统一输出路径
在org.archive.crawler.admin这个包中有很多与操作界面相关的后台逻辑处理
找到CrawlJobHandler.java,寻找“jobdir”看看那些有“-”相关的代码,修改命名方式即可。
3. 默认order.xml
打开之前设定的jobs文件夹的工作,然后将order.xml复制到工程默认即可。
4. 用bat启动并加载自己的heritrix.jar
把工程打包成jar包,覆盖原例子程序的admin,conf。编写bat文件,搞定!