今天搞了下heritrix1.14.4在eclipse下的配置,根据http://www.360doc.com/content/10/0913/18/2793979_53385587.shtml教程,一步步操作非常顺利,但是就是最后一个问题:
3、在eclipse中可以启动heritrix,但在jobs->modules.jsp页面中没有添加(“Add”)按扭,且出现以下异常。
致使错误:“无法编译样式表” 严重 thread-12 org.archive'crawler.framework.WriterPodProcessor.io.arc.......
解决办法:将heritrix 项目中的modulse的上一级目录文件添加到eclipse的classpath中。
按这个解决办法怎么也搞不定,在网上一顿狂搜找的:http://blog.sina.com.cn/s/blog_7645c6730100t0an.html这篇文章:
把heritrix-1.14.4\src\conf下的modules文件夹移到src文件夹中,问题才得以解决。
这中间还遇到一个问题,大概意思是javac无法找到,检查java环境变量也没问题,后来发现是eclipse的配置问题:打开Properties-》java compiler-》Installed jrs,add 一个新的jre项,路径是jdk的安装路径。把之前工程用的换成现在的就可以了。
使用入门我参照的是:http://www.yovae.com/blog/heritrix%E4%BD%BF%E7%94%A8%E6%96%B9%E6%B3%95%E7%A4%BA%E4%BE%8B.html
现在把http://www.360doc.com/content/10/0913/18/2793979_53385587.shtml用到的内容拷贝在这里,以防以后找不到这个链接了:
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
二、在Eclipse中配置Heritrix
1、新建空的java项目(注意不是WEB项目),命名为heritrix;
2、把heritrix-1.14.4-src\src\java\目录下的org、st和com文件夹拷贝到heritrix/src目录下;
3、把heritrix-1.14.4-src\src下的wbapps文件夹拷贝到heritrix目录下;
4、右击heritrix项目,点击properties ,通过JavaBuildPath,将heritrix-1.14.4-src下的lib目录下的所有包导入进来;
5、解压缩heritrix-1.14.4目录下的heritrix-1.14.4.jar文件,把解压后的所有文件和文件夹(除org、st、com文件夹和heritrix.properties文件外)拷贝到heritrix目录下;
6、将heritrix-1.14.4目录下的conf文件夹拷贝到heritrix目录下;并将heritrix目录下的profiles文件夹移入conf文件夹中;
7、打开eclipse下的heritrix/conf/heritrix.properties文件,找到"heritrix.cmdline.admin=",修改为“heritrix.cmdline.admin = admin:admin”;
8、Conf/jmxremote.password.template拷贝到heritrix目录下。改名为:jmxremote.password,
最后再行改成: monitorRole admin controlRole admin
9、找到org.archive.crawler包,运行Heritrix.java中的main函数。
成功提示信息为: 09:14:07.406 EVENT Starting Jetty/4.2.23
09:14:07.656 EVENT Started WebApplicationContext[/,Heritrix Console]
09:14:07.750 EVENT Started SocketListener on 127.0.0.1:8082
09:14:07.750 EVENT Started
Heritrix version: 1.14.4
可能会出现的异常:
1、在Heritrix.java中出现File URLConnection 红叉;
解决办法:将myeclipse中的compiler 属性中的Errors/warring 中的Forbidden....选为warrning即可。
2、出现的异常:......thread-10 org.archive.util.ArchiveUtils.<linit>( )TLD list....
解决办法:将 \heritrix-1.14.4-src\heritrix-1.14.4\src\resources\org\archive\util 下的文本文档拷贝到heritrix中的org\archive\util下;
3、在eclipse中可以启动heritrix,但在jobs->modules.jsp页面中没有添加(“Add”)按扭,且出现以下异常。
解决办法请参照本文前半部分