在eclipse中设置heritrix2的运行环境

基本上根据heritrix的文档就可以设置好,不过中间会很有些坎坷。把坎坷记录下来备忘。希望对遇见同样问题的人有所帮助。heritrix的文档参见:http://webteam.archive.org/confluence/display/Heritrix/Setting+up+the+new+Heritrix+in+Eclipse

1、从http://m2eclipse.sonatype.org/update-dev/安装maven的Eclipse插件,选择integration安装就可以了。或者安装单独maven。使用插件的话,要在eclipse.ini中加入jdk的路径,如:
-vm
C:/jdk1.6.0_07/bin/javaw.exe
切记一定要换行。

2、使用SVN,从https://archive-crawler.svn.sourceforge.net/svnroot/archive-crawler/trunk/heritrix2 下载最新版的源码,现在应该是2.0.3。因为在使用中出现问题,所以不建议使用 heritrix已经打好包的2.0.2的src,除非你愿意自己去改代码 。

3、在Eclipse中导入项目。建议使用的VM为JDK,而不是JRE。

4、在Eclipse中,设置M2_REPO variable。按缺省操作的话,这个应该自动设好了,否则指到到你实际的maven repository路径。

5、在Eclipse中,依次右键选择commons,modules,engine,webgui,dist和根路径下的pom.xml,Run As--maven Install。这时要保证网络是通的,会自动下载所需要的依赖包。这些会放在maven的repository路径里。不使用插件,直接用maven命令也可以。此处需要注意的是,直接用maven名令和用插件下载的包不完全一样。另外,会有几个包会下载不到。根据错误提示,如果是jar的话,在网上或自己机器里找一个类似版本的jar放到提示路径里;如果是pom文件,就自己编辑一个好了。

6、找到org.archive.crawler.Heritrix,run as或者debug as java application。在VM arguments设置:-Dheritrix.development,在program arguments中设置:
-jjobs路径的绝对地址。--【不设就按缺省。要设置的话,不要在-j后面有空格。应该是-jC:/jobs,下面类似。】
-aadmin --【登录时的密码】
-wC:/heritrix-2/webui/target/heritrix-webui-2.0.3-SNAPSHOT.war --【你自己生成的war实际路径】

完成以上这些,就可以运行了。建议使用非IE浏览器。否则,在有些后台操作时会抛异常,异常的具体原因和解决方法稍后再述。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值