Heritrix安装与简单配置
由于项目需要,需要利用爬虫在互联网上爬取数据,在 Nutch 与 Heritrix 之间选择了 Heritrix,前段时间自己写了一个爬虫,效率太低了,不过对于爬虫的基本情况已经心中有算,现在利用别人写的爬虫,而且是经过考验的,自然效率会比自己写的高很多。至于 Nutch 与 Heritrix 的比较就暂不讨论了。
第一步:选择版本并下载(http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20(heritrix%201.x)/)。
目前 git上已经有 3 以上的版本了,考虑到目前只是学习,所以先拿官网上最新的1.14版本下载安装,下面是我下载的文件
$ ll
总用量 28676
drwxrwxr-x 2 clebeg clebeg 4096 3月 29 14:59 ./
drwxr-xr-x 15 clebeg clebeg 4096 3月 26 09:44 ../
-rw-r--r-- 1 clebeg clebeg 10443109 3月 23 09:31 heritrix-1.14.4-src.tar.gz //原文件
-rw-rw-r-- 1 clebeg clebeg 18835284 3月 23 09:06 heritrix-1.14.4.tar.gz //二进制文件
第二步:解压二进制文件到指定目录
clebeg@clebeg:~/mydownload/spider$ tar -xzvf heritrix-1.14.4.tar.gz -C yourdir
注意:-C 参数后的路径必须存在,否则无法解压
$ ll
总用量 1524
drwxr-xr-x 7 clebeg clebeg 4096 5月 6 2010 ./
drwxrwxr-x 3 clebeg clebeg 4096 3月 29 15:10 ../
drwxr-xr-x 2 clebeg clebeg 4096 3月 29 15:10 bin/
drwxr-xr-x 2 clebeg clebeg 4096 3月 29 15:10 conf/
drwxr-xr-x 8 clebeg clebeg 4096 3月 29 15:10 docs/
-rw-r--r-- 1 clebeg clebeg 1497036 5月 6 2010 heritrix-1.14.4.jar
drwxr-xr-x 2 clebeg clebeg 4096 3月 29 15:10 lib/
-rw-r--r-- 1 clebeg clebeg 26985 5月 6 2010 LICENSE.txt
-rw-r--r-- 1 clebeg clebeg 2664 5月 6 2010 README.txt
drwxr-xr-x 2 clebeg clebeg 4096 3月 29 15:10 webapps/
第三步:配置爬虫 Heritrix
1)为了方便操作爬虫,首先设置环境变量,修改 ~/.bashrc,增加如下环境变量#set Heritrix home
HERITRIX_HOME=/home/clebeg/software/Heritrix/heritrix-1.14.4PATH=$HERITRIX_HOME/bin:$PATH
CLASSPATH=$HERITRIX_HOME/lib/*:$CLASSPATH
export HERITRIX_HOME
export PATH
export CLASSPATH
2)先解压heritrix-1.14.4.jar$ jar -xf heritrix-1.14.4.jar
3)解压之后的目录结构
drwxrwxr-x 8 clebeg clebeg 4096 3月 29 15:30 ./
drwxr-xr-x 14 clebeg clebeg 4096 3月 29 15:16 ../
-rw-rw-r-- 1 clebeg clebeg 8419 5月 6 2010 arcMetaheaderBody.xsl
-rw-rw-r-- 1 clebeg clebeg 58340 5月 6 2010 effective_tld_names.dat
-rw-rw-r-- 1 clebeg clebeg 10147 5月 6 2010 heritrix.properties
-rw-rw-r-- 1 clebeg clebeg 1078 5月 6 2010 jndi.propertiesd
rwxrwxr-x 2 clebeg clebeg 4096 5月 6 2010 META-INF/
drwxrwxr-x 2 clebeg clebeg 4096 5月 6 2010 modules/
drwxrwxr-x 4 clebeg clebeg 4096 5月 6 2010 org/
drwxrwxr-x 3 clebeg clebeg 4096 5月 6 2010 profiles/
drwxrwxr-x 2 clebeg clebeg 4096 5月 6 2010 selftest/
drwxrwxr-x 3 clebeg clebeg 4096 5月 6 2010 st/
4)然后拷贝解压之后的文件夹profiles/default 下面的 order.xml seeds.txt 到爬虫第一层目录的conf/下面$cp profiles/default/* $HERITRIX_HOME/conf
5)用 vim 打开 $HERITRIX_HOME/conf/heritrix.properties(这是web接口登录的账户名与密码)修改 heritrix.cmdline.admin = username:password
6)复制 $HERITRIX_HOME/conf 下面的 jmxremote.password.template 到 $HERITRIX 下面,然后改名字为 jmxremote.password, 用 vim 打开此文件,将 monitoRole 与 controlRole 后面的大写 PASSWORD 全部改成管理员密码。
7)启动 Heritrix: heritrix --admin=username:password 如果无法启动那么就将 $HERITRIX/bin 下面的文件赋予执行的权限
第四步:启动界面展示