1.下载heritrix-1.14.4.zip和heritrix-1.14.4.src 并解压,解压heritrix-1.14.4.jar.

2.在eclipse下创建java project,命名为比如heritrix,进入其工程的目录,我的是F:\workspace\myeclipse\heritrix,删除src文件夹。

3.copy解压后的heritrix-1.14.4.zip文件夹下的lib,webapps,heritrix-1.14.4到F:\workspace\myeclipse\heritrix目录下,并删除F:\workspace\myeclipse\heritrix\heritrix-1.14.4目录下的org和st两个文件夹。

copy解压后的heritrix-1.14.4.src 文件夹下的heritrix-1.14.4\src\java下的org和st两个文件夹到F:\workspace\myeclipse\heritrix\heritrix-1.14.4\目录下

4.修改heritrix-1.14.4文件夹名称为src

5.修改src\heritrix.properties文件中的heritrix.cmdline.admin = 为 heritrix.cmdline.admin = admin:sun,这个就是要设置你的用户名和密码,可以随便,中间是冒号。

6.将heritrix-1.14.4\src\resources\org\archive\util 下的tlds-alpha-by-domain.txt 文件,拷贝到eclipse下的Heritrix\src\org\archive\util目录下(如果不添加这个会报异常)

6.刷新工程,把lib下的jar包全部添加到工程中,即点击heritrix工程,右键属性---java build path---libraries--- add jars选择heritrix工程下lib所有jar。

7.运行org.archive.crawler.Heritrix类,在地址栏输入http://localhost:8080/