1、下载heritrix3.0或heritrix3.1,解压。运行cmd,进入到bin目录下(如笔者的目录:
cd D:\heritrix-3.1.0\bin)。运行命令:
heritrix -a admin:admin ,这里冒号前面admin是用户名,后面是密码,这样将会在另一个新建的窗口中运行heritrix程序。
在浏览器地址栏输入https://localhost:8443,注意这里是https,端口号为8443,进入webUI控制页面。
2、在"Create new job directory with recommended starting configuration"标签下的文本框里输入新任务的名字。然后点击create按钮。(注意在heritrix3.0中,Job Directories只承认有.cxml的文件的工作目录,在你想要放置job的目录下,新建文件夹,并将conf\jobs\profile-defaults下的,profile-crawler-beans.cxml拷贝过去,可修改名称为crawler-beans.cxml,输入路径,然后点add添加进去)。
3、点击Job Directories列表下新建任务的名字,将会进入新工作的配置页面。
在页面的顶端,有一个名叫craw-beans.cxml的配置文件,旁边有一股edit的链接。
4、点击"edit",配置内容将会出现,配置内容是可以被编辑的。
为使抓取工作进行,你至少需要修改几个属性。
a. 首先要给metadata.operatorContactUrl 属性赋值,例如:http://www.archive.org
其在id为simpleOverrides的bean内。内容如下:
metadata.operatorContactUrl=ENTER_AN_URL_WITH_YOUR_CONTACT_INFO_HERE_FOR_WEBMASTERS_AFFECTED_BY_YOUR_CRAWL,表示控制爬虫的url,将其值改为
metadata.operatorContactUrl=http://www.archive.org
b. 在longerOverrides bean的<prop>下,输入爬行开始的URL。如http://www.giftour.com
替换为要爬行的URL。如下:
5、点save changes,回到工作页面。点build,Job Log会显示INFO Job instantiated
6、点击launch按钮,将会暂停,点击unpause,爬行工作就开始了。
以下就是你抓到的数据。