Heritrix使用方法示例一

   本文首先介绍网络爬虫程序的概念和作用,然后通过heritrixeclipse的配置,并阐述了我所遇到的问题。进行面向特定主题的网页抓取试验并进行结果分析。

一、Heritrix系统简介

网络爬虫是一种按照一定的规则,自动抓取互联网信息的程序或脚本。从一个或若干初始网页的URL开始,利用HTTP等标准协议读取文档,将文档中所包括的URL放入URL队列中,然后从队列中新的URL处开始进行漫游,把爬过的网页搜集起来,直到没有满足条件的新的URL为止。

 网络爬虫工具Heritrix是由面向对象的程序设计语言java开发的,开源的网络爬虫工具包,它的程序执行速度之快是传统搜索引擎无法企及的。作为一个专为互联网网页进行存档而开发的网页检索器,开发者可利用其出色可扩展性来实现自己的抓取逻辑。

二、Heritrixeclipse的配置

首先下载Heritrix您可以从 SourceForgehttp://sourceforge.net/projects/archive-crawler/files/)上下载。每个版本都有四个压缩包,两个 .tar.gz 包用于 Linux 下,.zip 用于 windows 下。其中 heritrix-1.14.4.zip 是源代码经过编译打包后的文件,而 heritrix-1.14.4-src.zip 中包含原始的源代码,方便进行二次开发。本文需要用到 heritrix-1.14.4-src.zip,将其下载并解压至 heritrix-1.14.4-src 文件夹。

 接着下载eclipse:可以从eclipse官网(https://www.eclipse.org/downloads/)下载,根据操作系统的版本下载适合自己的版本,我使用的是64位的版本。下载JDK,可以从http://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html下载。具体的安装可见: http://jingyan.baidu.com/article/19192ad859d642e53e570734.html

 Heritrixeclipse的配置。具体参考(http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/?S_TACT=105AGX52&S_CMP=reg-ccid)(这里就不复制粘贴人家的成果了)

三、配置过程所遇到的问题

1.在导入类库 - 导入时,不能使用add jars直接导入,使用的是add externaljars,这让我一个eclipse门外汉有点捉急了。事实证明着对实验结果没有影响。

2.配置运行文件设置工程和类。找不到Main class中的org.archive.crawler.Herit -rix。查看Heritrix.java,发现有个红叉,运行后提示:

E:\Program Files(x86)\MyEclipse\Common\binary\com.sun.java.jdk.win32.x86_64_1.6.0.013 \jre\lib\rt.jar

百度后,得到这样的答案:Eclipse 默认把这些受访问限制的API设成了ERROR。只要把Windows-Preferences-Java-Complicer-Errors/Warnings里面的Deprecated and restricted API中的Forbidden references(access rules)选为Warning就可以编译通过。按照这个过程进行设置,顺利通过了编译,配置成功。

四、开始抓取数据

同样按照 (http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/  )进行操作,并发现了一个问题。点击“Modules”按钮后,对 Crawl Scope Writers 两项进行设置时,发现Heritrix1.14.4Select Writers并不像文中所说的有两种压缩方式可以选择:一种是采用压缩的方式(Arc),还有一种是镜像方式(Mirror)。也不能按照攻略选择简单直观的镜像方式:org.archive.crawler.writer.MirrorWriterProcessor

解决方案:在Eclipse里面设置confClasspath( EclipseRun Dialog中,Classpath标签Table,选中User Entries,然后右边会有Advance选项,选Add External Folder,把你的Conf加进去就行了)。再试,在Modules页面中的功能正常了。 

 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值