Heritrix的介绍
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。详细介绍网址:https://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/
目前Heritrix的最新版本为3.2.0
在这里我们选择Heritrix 1.14.4版本进行配置(因为一些新的版本存在文档不完善以及更新中的一些小问题,而老版本相对于来说会更加的稳定和有完善的文档)
Heritrix 1.14.4在Eclipse中的配置
2.下载地址:http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/1.14.4/
下载heritrix-1.14.4.zip和heritrix-1.14.4-src.zip这两个文件
3. 解压缩heritrix-1.14.4.zip和heritrix-1.14.4-src.zip
4. 在Eclipse中新建HeritrixApp的java工程。
创建后的该项目的目录结构:
1)将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹直接复制到工程src下。
2)将heritrix-1.14.4-src.zip解压中src中conf文件夹直接复制到项目根目录。
3)将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。
4)将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。
5)将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。
6)引入jar包文件,将项目中的lib文件夹下面的所有jar包导入到项目中
(右键项目——》Build Path——》Configure Build Path)
选择Libraries——》Add Library——》User Library——next
New——》填写你的User Library Name——点击OK
Add External JARs——》选择到你的项目中的lib文件夹,选择所有的jar文件,点击打开,最有点击OK就将所有的jar包导入到了项目文件中
所有操作完成后的项目文件目录结构:
7)更改项目中conf文件夹下面的heritrix.properties文件
@VERSION@ 改为 1.14.4