爬虫 Heritrix 学习笔记 —— Heritrix安装与简单配置

Heritrix安装与简单配置       

        由于项目需要,需要利用爬虫在互联网上爬取数据,在 Nutch 与 Heritrix 之间选择了 Heritrix,前段时间自己写了一个爬虫,效率太低了,不过对于爬虫的基本情况已经心中有算,现在利用别人写的爬虫,而且是经过考验的,自然效率会比自己写的高很多。至于 Nutch 与 Heritrix 的比较就暂不讨论了。


第一步:选择版本并下载(http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20(heritrix%201.x)/)。

            目前 git上已经有 3 以上的版本了,考虑到目前只是学习,所以先拿官网上最新的1.14版本下载安装,下面是我下载的文件

$ ll
总用量 28676
drwxrwxr-x  2 clebeg clebeg     4096  3月 29 14:59 ./
drwxr-xr-x 15 clebeg clebeg     4096  3月 26 09:44 ../
-rw-r--r--  1 clebeg clebeg 10443109  3月 23 09:31 heritrix-1.14.4-src.tar.gz  //原文件
-rw-rw-r--  1 clebeg clebeg 18835284  3月 23 09:06 heritrix-1.14.4.tar.gz      //二进制文件

第二步:解压二进制文件到指定目录

clebeg@clebeg:~/mydownload/spider$ tar -xzvf heritrix-1.14.4.tar.gz -C yourdir 
注意:-C 参数后的路径必须存在,否则无法解压
$ ll
总用量 1524
drwxr-xr-x 7 clebeg clebeg    4096  5月  6  2010 ./
drwxrwxr-x 3 clebeg clebeg    4096  3月 29 15:10 ../
drwxr-xr-x 2 clebeg clebeg    4096  3月 29 15:10 bin/
drwxr-xr-x 2 clebeg clebeg    4096  3月 29 15:10 conf/
drwxr-xr-x 8 clebeg clebeg    4096  3月 29 15:10 docs/
-rw-r--r-- 1 clebeg clebeg 1497036  5月  6  2010 heritrix-1.14.4.jar
drwxr-xr-x 2 clebeg clebeg    4096  3月 29 15:10 lib/
-rw-r--r-- 1 clebeg clebeg   26985  5月  6  2010 LICENSE.txt
-rw-r--r-- 1 clebeg clebeg    2664  5月  6  2010 README.txt
drwxr-xr-x 2 clebeg clebeg    4096  3月 29 15:10 webapps/



第三步:配置爬虫 Heritrix

1)为了方便操作爬虫,首先设置环境变量,修改 ~/.bashrc,增加如下环境变量#set Heritrix home

HERITRIX_HOME=/home/clebeg/software/Heritrix/heritrix-1.14.4
PATH=$HERITRIX_HOME/bin:$PATH
CLASSPATH=$HERITRIX_HOME/lib/*:$CLASSPATH
export HERITRIX_HOME
export PATH

export CLASSPATH

2)先解压heritrix-1.14.4.jar$ jar -xf heritrix-1.14.4.jar

3)解压之后的目录结构

drwxrwxr-x 8 clebeg clebeg 4096 3月 29 15:30 ./

drwxr-xr-x 14 clebeg clebeg 4096  3月 29 15:16 ../

-rw-rw-r--  1 clebeg clebeg  8419  5月  6  2010 arcMetaheaderBody.xsl

-rw-rw-r--  1 clebeg clebeg 58340  5月  6  2010 effective_tld_names.dat

-rw-rw-r--  1 clebeg clebeg 10147  5月  6  2010 heritrix.properties

-rw-rw-r--  1 clebeg clebeg  1078  5月  6  2010 jndi.propertiesd

rwxrwxr-x  2 clebeg clebeg  4096  5月  6  2010 META-INF/

drwxrwxr-x  2 clebeg clebeg  4096  5月  6  2010 modules/

drwxrwxr-x  4 clebeg clebeg  4096  5月  6  2010 org/

drwxrwxr-x  3 clebeg clebeg  4096  5月  6  2010 profiles/

drwxrwxr-x  2 clebeg clebeg  4096  5月  6  2010 selftest/

drwxrwxr-x  3 clebeg clebeg  4096  5月  6  2010 st/

4)然后拷贝解压之后的文件夹profiles/default 下面的 order.xml  seeds.txt 到爬虫第一层目录的conf/下面$cp profiles/default/* $HERITRIX_HOME/conf

5)用 vim 打开 $HERITRIX_HOME/conf/heritrix.properties(这是web接口登录的账户名与密码)修改 heritrix.cmdline.admin = username:password

6)复制 $HERITRIX_HOME/conf 下面的 jmxremote.password.template 到 $HERITRIX 下面,然后改名字为 jmxremote.password, 用 vim 打开此文件,将 monitoRole 与 controlRole 后面的大写 PASSWORD 全部改成管理员密码。

7)启动 Heritrix: heritrix --admin=username:password 如果无法启动那么就将 $HERITRIX/bin 下面的文件赋予执行的权限 


第四步:启动界面展示

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值