我用的是1.12.1版本
Heritrix配置总结:
1. 运行heritrix步骤:
2. 下载后将其解压到heritrix文件夹下:copy heritrix/conf/jmxremote.password.template 到 heritrix的根目录下,并将其重命名为 jmxremote.password
3. 将heritrix-*-*.jar解压到一个临时目录,然后将临时目录下的profiles文件夹copy到heritrix/conf/目录下。
4. 打开heritrix/conf/ heritrix.properties 更改” heritrix.cmdline.admin =”为:” heritrix.cmdline.admin = admin:admin”。添加为你登陆时用得用户名和密码。
5. 进入命令窗口,将目录切换到heritrix/bin下,输入命令 heritrix -–admin admin:admin
6. 此时heritrix就启动了
在eclipse下配置heritrix
因为在eclipse下启动heritrix需要运行org.archive.crawler.Heritrix这个主类,而此类又有两种运行模式,一种是开发模式,一种为非开发模式,具体是通过运行此类时是否有 VM argruments 参数-Dheritrix.development来决定的。而是以哪种模式运行的,其目录下的各个文件及文件夹的存放路径又有所不同(见:org.archive.crawler.Heritrix的
getSubDir
()
方法),下面我们先以开发模式为例来说明:
开发模式:
1. 在eclipse下建立名为heritrix的项目,把 heritrix-1.12.1-src.zip解压到临时文件夹下,
将临时文件夹下的
src
目录下的所有文件及文件夹
copy
到
heritrix
项目下的
src
目录下。并将临时文件夹下的lib目录copy到heritrix项目的根目录下。
2. 在heritrix项目下,
将
heritrix/src/conf/
下的
modules
目录剪切到
/heritrix/src
下。将
/heritrix/src/java
目录下的所有文件剪切到
/heritrix/src
下。
3. 在eclipse中新建一个liberary,将heritrix/lib下的所有的jar文件纳入该liberary
4. 在eclipse下运行org.archive.crawler.Heritrix,记得运行时输入VM argruments 参数-Dheritrix.development。
非开发模式:
1. 在eclipse下建立名为heritrix的项目,把 heritrix-1.12.1-src.zip解压到临时文件夹下,
将临时文件夹下的
src
目录下的所有文件及文件夹
copy
到
heritrix
项目的根目录下。并将临时文件夹下的lib目录copy到heritrix项目的根目录下。
2. 在heritrix项目下,
将
/heritrix/java/
目录下的所有文件剪切到
/heritrix/src
目录下,将
/heritrix/conf
目录下的
modules
目录剪切到
/heritrix/src
下。
3. 在eclipse中新建一个liberary,将heritrix/lib下的所有的jar文件纳入该liberary
4. 在eclipse下运行org.archive.crawler.Heritrix,记得运行时不要输入VM argruments 参数-Dheritrix.development。