Heritrix使用小结 - Shiny programming

1.    Heritrix  简介

Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为,另外,它还有一个命令行工具来供用户选择调用。

Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布是在2004年1月,并不断的被互联网档案馆和其他感兴趣的第三方改进着。到现在已经成为一个成熟的开源爬虫,并被广泛使用。

Heritrix的操作模型:

从模型中可以看到,利用Heritrix我们可以轻松从互联网上获取信息并将它们全部存储下来,然后可以任意的访问获取到的网页信息并可以查看报告。

 

Heritrix的整体结构简图如下:

它的工作流程是一个循环,具体流程是:

  在预定的URI中选择一个。

  从选择的URI的网址下载远程文件

  分析,归档下载到的内容

  从分析到的内容里面选择感兴趣的URI。加入预定队列。

  标记已经处理过的URI

 

在大概的了解了Heritrix及它的工作机制之后,我们就可以开始Heritrix的使用了。

 

2.    Heritrix  的配置与使用

  1)     安装与配置

从官方网站http://crawler.archive.org/下载最新版本的Heritrix运行包,解压到一个文件夹内。其中,Heritrix所用到的工具类库都存于lib下,另外,在Heritrix目录下有一个conf目录,其中包含了一个很重要的文件:heritrix.properties

 heritrix.properties中配置了大量与Heritrix运行息息相关的参数,这些参数主要是配置了Heritrix运行时的一些默认工具类、WebUI的启动参数,以及Heritrix的日志格式等。当第一次运行Heritrix时,只需要修改该文件,为其加入WebUI的登录名和密码。在"heritrix.cmdline.admin="后面增加账户和密码,比如heritrix.cmdline.admin=admin:admin 。其中,用户名和密码是以一个冒号进行分隔,使用者可以指定任何的字符串做为用户名密码。

新建一个文件Heritrix.cmd 作为启动Heritrix的命令文件,在文件内写入:

(假设文件夹路径为D:\heritrix


 

运行上述脚本,在浏览器输入http://localhost:8080/,输入之前设置的用户名密码,即可进入Heritrix管理页面。

 

2)     新建抓取任务

(1)       单击菜单栏上的“Jobs”标签,就可以进入任务创建页面。如下图所示:

 

(2)       在任务创建页面中,有4种创建任务的方式,具体含义如下:

Based on existing job:以一个已经有的抓取任务为模板,创建所有抓取属性和抓取起始URL的列表

Based on a recovery:在以前的某个任务中,可能设置过一些状态点,新的任务将从这个设置的状态点开始。

Based on a profile:专门为不同的任务设置了一些模板,新建的任务将按照模板来生成。

With defaults:这个最简单,表示按默认的配置来生成一个任务。

 

(3)       单击With defaults链接,创建一个新的抓取任务。

(4)       在新建任务的名称上,填入任务名称。在Description中随意填入字符,然后再在seeds框中,填入待抓取的起始网址。如下图所示:

 

(5)       单击“Modules”按钮,就进入了配置抓取时的处理链的页面。

在倒数第三项 "Select Writers "内删除默认的"org.archive.crawler.writer.ARCWriterProcess”,加 "org.archive.crawler.writer.MirrorWriterProcessor",这样执行任务的时候抓取到的页面会以镜像的方式放在本地的目录结构中,而不是生成ARC存档文件。如下图:

 

(6)       单击“Settings” 按钮,进入了属性设置的页面。

在属性设置页面上有非常多的输入域,Heritrix在抓取网页时,这些域是用来对的各个组件的值进行预设。由于页面上的内容非常多,使用者可能无法全部了解它们的作用。所以Heritrix提供了一个辅助功能,来在最大程度上让使用者了解每个参数的含义。在每个属性的右侧都有一个小问号,当单击问号时,就会弹出一个JavascriptAlert提示框,上面介绍了当前属性的作用。

当在第一次使用Heritrix时,所需要设置的参数并不多,以默认设置为主。但有一些参数是必须在第一次使用时就设置好的,就是HTTP-Header这个属性域。

如下图所示,红色框内是修改前后对照。其中“user-agent”中的“PROJECT_URL_HERE”对应自己的完整URL地址,“from”中设置自己的合法email地址,这两项设置其实可随便设置,只要格式规则合法即可。图中的@VERSION@设置为1.12.1,即1.12.1版本的。

 

(7)       设置完成后,点击“Submit job”,即完成全部任务的建立工作。 这时就可以在Console页面中点击start启动任务。

 

抓取到的所有文件在” %Heritrix_HOME%/jobs/任务名-任务时间/mirror”这个路径下,按照域名分开存放。

 

 

3.    Heritrix  的扩展开发  

1)    
Heritrix  结构分析

        

从上图可以看出,Heritrix总体上是一个平台结构,内部的组件都具有松耦合的特点。任何一个部分都可以进行拆卸并替换,这就给我们进行基于Heritrix的自定义开发提供了条件。

 

下面简单介绍一下每个组件的作用

1.      CrawlController

CrawlController(中央控制器)是抓取任务的核心组件,它控制着整个抓取的流程。

 

2.      CrawlOrder

CrawlOrder (抓取任务)是整个抓取工作的起点,它记录了任务的所有属性,即在创建任务时的一系列设置。


3.      Frontier

Frontier (链接制造工厂)负责所有链接的处理。将已经爬过的URI做标记,并将未处理的链接放入待处理队列。

 

4.      ToeThread

ToeThread(处理线程)Heritrix是多线程的,每个 URL 被一个线程处理,这个线程就叫做 ToeThread,每个线程都会包括一条处理链,如下图所示。

 

5.       Processor

Processor(处理器)代表着单个的处理器,所有的处理器都是它的子类。它包括以下几种:PreProcessor(预处理器)、Fetcher(获取器)、Extractor(抽取器)、Writer(存储器)、PostProcessor(后处理器)。

                                                           

 

 

 

 

 

 

2)     Heritrix  的组件开发

在使用Heritrix的过程中,可能会需要一些特定功能,比如说只想抓取一个域名下的网页等。这时就需要扩展原有的Heritrix,自己写一些组件来满足这些要求。

 

(1)    扩展 FrontierScheduler

首先在Heritrix工程中创建类包my. processor. ,之后新建类MyFrontierScheduler。代码如下:


 

         之后打开Heritrix目录下的module文件夹,里面是所有模块的配置文件。打开Processor.options,在里面加入一行my. processor.MyFrontierScheduler|MyFrontierScheduler。然后保存退出,之后你就可以在新建任务的时候选择使用自己扩展的FrontierScheduler了。

 

 

(2)    扩展 MirrorWriterProcessor

有的时候我们需要在网页下载之前将网页进行分析并提取有效内容存储起来,这时我们可以扩展MirrorWriterProcessor这个模块。利用一个开源的包htmlparser分析网页结构,并将结果存储起来。htmlparser可以在http://htmlparser.sourceforge.net 获得。将下载的包添加到项目的引用列表中。

新建MyMirrorWriterProcessor,将之前MirrorWriterProcessor的代码复制过来,改掉类名及构造函数的名称。添加新的引用:


新建一个方法AnalysisFile(),在writeToPath这个函数中调用它:



 之后就可以在AnalysisFile()中处理dest这个文件,将其进行分析并保存为想要的格式。以下例子将其去掉Html标签之后封装进一个XML文件:

4.   Heritrix 的常用技巧

1)    只保存html类型的文件

对于大多数的搜索引擎,我们所要做的只是对于纯文本的搜索。因此只需要保存html类型的内容。Heritrix的官方文档”Heritrix User Manual”中给出了一个解决方案

         在新建任务时点击”submodules”,如下图:

     添加一个新的规则,类型为NotMatchesFilePatternDecideRule,并将其放置在PrerequisiteAccept-

DecideRule之前,不然dns将不会被正确解析。之后在设置面板中如下设置:

这样设置之后,爬虫就会只抓取html类型的文件,而将其它类型的文件都忽略掉。

 

2)     Queue-assignment-policy 的设置。

当我们设置了在特定的域名下爬行的时候,经常会碰到永远只有一个线程在运行的情况,导致爬行十分缓慢。这是因为在默认的情况下,Heritrix使用HostnameQueueAssignmentPolicy来产生key值,从这个策略的名字,我们也可以很容易的看出,keyhostname是有关系的。而事实上,这个策略正是用hostname作为key值的。因此一个域名下的所有链接都会放到同一个线程中去。

为解决这个问题,我们新建一个策略:

这样用ELF hash算法把url尽量平均分部到各个队列中去,采集的速度大大的加快了。

 

 

 

参考资料:

1.   Gordon Mohretal : An introduction to Heritrix. Accessed Apr 2009.

http://crawler.archive.org/An%20Introduction%20to%20Heritrix.pdf

2.    Wikipedia Heritrix Homepage. Accessed Apr 2009.    http://en.wikipedia.org/wiki/Heritrix

3.    John Erik Halse : Heritrix developer documentation. Accessed Apr 2009.

http://crawler.archive.org/articles/developer_manual.html

4.    Kristinn Sigur?sso: Heritrix User Manual. Accessed Apr 2009.

http://crawler.archive.org/articles/user_manual/index.html

5.    邱哲 符滔滔:《开发自己的搜索引擎-Lucene 2.0+Heritrix人民邮电出版社 ISBN:711516000  

Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的带宽去站点爬。 主题爬虫:集中于被选择的问题。 持续爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。 实验爬虫:对爬虫技术进行实验,以决定该爬什么,以及对不同协议的爬虫爬行结果进行分析的。 Heritrix的主页是http://crawler.archive.org Heritrix是一个爬虫框架,可加如入一些可互换的组件。 它的执行是递归进行的,主要有以下几步: 1。在预定的URI中选择一个。 2。获取URI 3。分析,归档结果 4。选择已经发现的感兴趣的URI。加入预定队列。 5。标记已经处理过的URI Heritrix主要有三大部件:范围部件,边界部件,处理器链 范围部件:主要按照规则决定将哪个URI入队。 边界部件:跟踪哪个预定的URI将被收集,和已经被收集的URI,选择下一个URI,剔除已经处理过的URI。 处理器链:包含若干处理器获取URI,分析结果,将它们传回给边界部件 Heritrix的其余部件有: WEB管理控制台:大多数都是单机的WEB应用,内嵌JAVA HTTP 服务器。 操作者可以通过选择Crawler命令来操作控制台。 Crawler命令处理部件:包含足够的信息创建要爬的URI。 Servercache(处理器缓存):存放服务器的持久信息,能够被爬行部件随时 查到,包括IP地址,历史记录,机器人策略。 处理器链: 预取链:主要是做一些准备工作,例如,对处理进行延迟和重新处理,否决随后的操作。 提取链:主要是获得资源,进行DNS转换,填写请求和响应表单 抽取链:当提取完成时,抽取感兴趣的HTML,JavaScript,通常那里有新的也适合的URI,此时URI仅仅被发现,不会被评估 写链:存储爬行结果,返回内容和抽取特性,过滤完存储。 提交链:做最后的维护,例如,测试那些不在范围内的,提交给边界部件 Heritrix 1.0.0包含以下关键特性: 1.用单个爬虫在多个独立的站点一直不断的进行递归的爬。 2。从一个提供的种子进行爬,收集站点内的精确URI,和精确主机。 3。主要是用广度优先算法进行处理。 4。主要部件都是高效的可扩展的 5。良好的配置,包括: a。可设置输出日志,归档文件和临时文件的位置 b。可设置下载的最大字节,最大数量的下载文档,和最大的下载时间。 c。可设置工作线程数量。 d。可设置所利用的带宽的上界。 e。可在设置之后一定时间重新选择。 f。包含一些可设置的过滤机制,表达方式,URI路径深度选择等等。 Heritrix的局限: 1。单实例的爬虫,之间不能进行合作。 2。在有限的机器资源的情况下,却要复杂的操作。 3。只有官方支持,仅仅在Linux上进行了测试。 4。每个爬虫是单独进行工作的,没有对更新进行修订。 5 。在硬件和系统失败时,恢复能力很差。 6。很少的时间用来优化性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值