Eclipse 配置 Heritrix 1.14.4的配置过程如下:
1. 首先从http://sourceforge.net/projects/archive-crawler/ 中下载
heritrix-1.14.4-src.zip(Windows)
2. 在Eclipse 中创建一个java project的工程(可以命名为heritrix)
3. 将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下。
4. 将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录。
5. 将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。
6. 将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。
7. 将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。
8.在Eclipse中修改项目conf下heritrix.properties文件(
修改内容至少两个两个地方:
heritrix.cmdline.admin = admin:admin(这里是用户名与密码,可任读者设定.)
heritrix.cmdline.port = 8090 (注默认是8080的如果你已占用了这个端口号的话,要设另一个才行,因为我之前安装了tomcat,所以这里改为8090)
9.导入lib目录下的所有.jar文件选中,点击完成!
10.运行Heritrix 在org.archive.crawler下运行Heritrix.java
11.运行成功 在浏览器中打开 http://localhost:8090/
12.遇到问题:
报错找不到类 sun.net.www.protocol.file.FileURLConnection,sun包是受保护的包,默认只有sun公司的软件才能使用。Eclipse会报错,把对保护使用warning就可以了。Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning
报错 thread-10 org.archive.util.ArchiveUtils.<clinit>() TLD list unavailable 没有进行第 6 步