在MyEclipse8.0中构建Heritrix1.14.4
这里用的版本是 Heritrix <?XML:NAMESPACE PREFIX = ST1 />1.14.42010510 日 的版本 目前是最新版本)
1. 首先从 http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/ 中下载 heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip
2.MyEclipse 中创建一个 java project 的工程(只能是 Java projectHeritrix, 分别对 heritrix-1.14.4.zip heritrix-1.14.4-src.zip 进行解压。
3.heritrix-1.14.4-src.zip 解压后文件夹下的 src/java 中的 comorgst 三个文件夹复制到项目 Heritrixsrc 下。
4.heritrix-1.14.4-src.zip 解压后文件夹下 srcconf 文件夹复制到项目 Heritrix 的根目录下。
5.heritrix-1.14.4-src.zip 解压后文件夹下 lib 文件夹复制到项目 Heritrix 的根目录下。
6.heritrix-1.14.4-src.zip 解压后文件夹下 src/resources/org/archive/utiltlds-alpha-by-domain.txt 文件复制到项目 Heritrixsrc/org.archive.util 包下。
7.heritrix-1.14.4.zip 解压中 webapps 文件夹复制到项目 Heritrix 的根目录下。
8.将heritrix-1.14.4-src.zip解压中src/webapps文件夹下的两个文件夹复制到项目Heritrix的webapps目录下
9. 对配置文件进行修改 , 找到项目中 conf 下 heritrix.properties 文件 ,修改如下:
// 设置版本
heritrix.version = 1.14.4
// 设置用户密码
heritrix.cmdline.admin = admin:admin
// 设置端口
heritrix.cmdline.port = 8080
10. 接下来将 jar 包导入项目。右键单击 Heritrix 项目,选择 Build Path->Configure Build Path, 选中 Libraries 选项,选择 Add External JARS ,将 heritrix-1.14.4\lib 下的所有 jar 包加入到 Build Path 。
11. 在 Window->Preference->Java->Compiler 中,将 Complier compliance level 改为 1.5 ,目的是为了使 Heritrix 编译通过。否则 Eclipse 可能不认 assert 这个关键字。
12. 上述一切修改完后,会在 org.archive.crawler 包中 Heritrix.java 出现 sun.net.www.protocol.file.FileURLConnection 的错误。
这是因为是 sun 包是受保护的包,默认为只有 sun 公司的软件才能使用,进入 Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning ,对受保护的包使用 warning 即可。
13. 在工程中找到 org.archive.crawler.Heritrix.java 右键选 Run as — >Run Configurations 运行配置
选择 Classpath
选择 User Entries -- Advanced
选择 Add Folders 将 conf 文件夹添加进去。
点击 Run 开始运行
启动成功,控制台打印
05:02:28.687 EVENT Starting Jetty/4.2.23
05:02:28.734 WARN!! Delete existing temp dir C:\DOCUME~1\ADMIN~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/D:/??/JavaWeb/Workspace/Heritrix/webapps/admin.war!/]
05:02:28.875 EVENT Started WebApplicationContext[/,Heritrix Console]
05:02:28.953 EVENT Started SocketListener on 127.0.0.1:8080
05:02:28.953 EVENT Started org.mortbay.jetty.Server@a37368
Heritrix version: 1.14.4
运行 http://localhost:8080 ,出现登录页面,输入用户名: admin ,密码: admin 登录成功,标明配置成功。
到目前我们已经完成 Heritrix1.14.4MyEclipse8.0 下的配置。