heritrix是sourceforge下的一个开源爬行工具,这个工具只是在linux下测试过,没有进行过在windows下的测试。heritrix的文档中也没有在windows下的安装和测试的内容。
下面我就总结一下这段时间来在windows命令行下的两种可行的的安装运行方式。
正确安装java虚拟机是必须的,而且要是1.5以上的版本才行!
一,安装都一样
下载完整的heritrix开发包,解压到本地的一个目录下,比如E:/!之后配置系统环境变量"HERITRIX_HOME"到该解压目录。(对于下面的第一种方法,不配置这个环境变量一样可以)。
二,运行前的配置工作,下面就两种方法分别介绍!
方法一:在%HERITRIX_HOME%/目录下有一个conf目录,在conf下有个重要的heritrix.properties。在这个文件中配置了大量与Heritrix运行息息相关的参数,这些参数主要是配置了Heritrix运行时的一些默认工具类、WebUI的启动参数,以及Heritrix的日志格式等。当第一次运行Heritrix时,只需要修改该文件,为其加入WebUI的登录名和密码,和修改监听端口。
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8080
其中,用户名和密码是以一个冒号进行分隔,使用者可以指定任何的字符串做为用户名密码,监听端口如果不修改的话,默认是8080。下面需要调用Heritrix的主类org.archive.crawler.Heritrix来启动heritrix。当然,在运行它的时候,需要为其加上lib目录下的所有jar包,例如(这是