1 Heritrix安装
1.1 本地环境
- 系统:Ubuntu 16.04
- Heritrix版本:3.2
- JDK版本:1.7(Heritrix 3.2不支持Java8)
1.2 下载解压
下载方式如下:
- 在CSDN上查找可以直接通过命令行使用的Heritrix 3.2版本,然后解压到工作目录,通过执行二进制文件运行
- 也可以在GitHub下载release版本,然后通过IDE直接编译运行
- 如果能访问外网,可以直接通过Heritrix官网下载
以下采用的是二进制文件运行方式。
1.3 配置
1.设置JAVA_HOME环境变量
指向Java的安装路径,比如:
export JAVA_HOME=/usr/local/java/jre
2.设置HERITRIX_HOME环境变量
指向Heritrix目录,应该设置为包含bin的目录:
export HERITRIX_HOME=/PATH/TO/HERITRIX
比如,Heritrix的bin目录为/home/user/heritrix3.2/bin,那么它的设置应该为:
export HERITRIX_HOME=/home/user/heritrix3.2
3.设置Heritrix启动文件的执行权限
修改heritrix文件的权限:
chmod u+x $HERITRIX_HOME/bin/heritrix
4.修改Java分配给Heritrix的堆内存大小
设置JAVA_OPTS环境变量,比如分配1GB内存给Heritrix:
export JAVA_OPTS=-Xmx1024M
1.4 运行
1.4.1 命令行选项
Heritrix可以用多个选项运行,可以用以下命令查看选项:
$HERITRIX_HOME/bin/heritrix --help
选项描述如下表所示:
命令行选项 | 描述 |
---|