网站爬虫解决方案

最新推荐文章于 2022-12-29 09:35:53 发布

weixin_30361641

最新推荐文章于 2022-12-29 09:35:53 发布

阅读量208

点赞数

原文链接：http://www.cnblogs.com/cxccbv/archive/2009/07/23/1529196.html

版权

2007年11月09日星期五 16:24

作者:行健 liu_xingjian http://hi.baidu.com/liu%5Fxingjian/blog/item/5304e8609c7c1c47ebf8f810.html

网站爬虫解决方案一暨Heritrix抓取

整个步骤包括配置Heritrix处理链、抓取网页、解析和提取内容、建立索引和搜索。

一、Heritrix配置的处理链
1.PreProcessor：对抓取时的先决条件判断，如robot.txt信息，是整个处理器链的入口。
通常选择：
org.archive.crawler.prefetch.Preselector。
org.archive.crawler.prefetch.PreconditionEnforcer。

2.Fetcher：用于解析网络传输协议，如解析DNS、HTTP、FTP等。
通常选择：
org.archive.crawler.fetcher.FetchDNS。
org.archive.crawler.fetcher.FetchHTTP。

3. Extractor（这个通常可以定制）：用于解析当前获取的内容，解析后取出页面中的URL，它们存入队列中，然后等待下次继续抓取。
通常选择：
org.archive.crawler.extractor.ExtractorHTTP。
org.archive.crawler.extractor.ExtractorHTML。
可以选择自己定制的类。

4. Writer：将抓取的内容写入磁盘。
通常选择：
org.archive.crawler.writer.MirrorWriterProcessor。

5. PostProcessor（这个通常可以定制）：在抓取解析过程结束后，它进行一些收尾工作，比如将Extractor解析出来的URL有条件地加入到处理队列中。
通常选择：
org.archive.crawler.postprocessor.CrawlStateUpdater。
org.archive.crawler.postprocessor.LinksScoper。
org.archive.crawler.postprocessor.FrontierScheduler。
可以选择自己定制的类。

二、抓取网页
第一种抓取方式：也是最简单的方式，输入要抓取的网页起始路径，通过Heritrix的WebUI对处理链进行简单配置进行抓取。这种方式是将整个网站网页进行抓取，然后将内容保存到硬盘上。

第二种抓取方式：如果对Heritrix抓取的网页进行控制，比如只想抓取某种符合要求的URL，那么就需要对Extractor和PostProcessor进行扩展。

对Extractor进行扩展，实现一个URL过滤功能，以符合抓取要求。

主要步骤：
1.写一个类，继承Extractor。
2.调用父类的构造函数。
3.继承extract(CrawlURI )方法。
对extract（）方法进行编码实现需要的功能。
对Extractor的类进行扩展后，在Processor.options中将其加入。这是在WebUI中关于Extractor的列表多了一项我们自己定义的类。
对PostProcessor进行扩展，实际是对Frontierscheduler扩展，作用是将在Extractor中所分析得出的链接加入到Frontier中，以待继续处理。例如，当抓取的时候可能希望除去符合条件的URL链接，使其内容不保存在本地。如，除去.zip，.exe的链接。可以通过继承Frontierscheduler并重新写内部的schedule(CandidateURI )方法。这样就可以让特定的信息加入队列中，比如产品的详细信息、品牌、图片。而其他信息被屏蔽掉。

三、解析和提取内容
通过以上方式可以抓取到网页，但还要从这些页面中解析出需要的文本信息，如，标题、内容、URL链接地址等。之后提出这些信息组成一个document对象，通过Lucene将document对象加入到索引，提供用户搜索用。

在实际项目中通常使用HTML解析器（如，HTMLParser）来提取网页内容。

HTMLParser，是个开源的JAVA库，它提供一系列访问本地和网络HTML资源的API接口，可以方便根据HTML元素（title,body,title等）的提取需要的信息。

四、建立索引和搜索
根据提取的内容形成document对象，将其加入到Lucene索引中，供用户搜索。

五、注意事项
1．在抓取网页的过程中，必须要对网页进行分析，抓取那些网站页面结构不经常改变的页面，最好是使用动态模板生成的。这样有利于在分析网页的时候使用相对简单的方式来从网页中解析数据。

网站爬虫解决方案二暨Nutch抓取
Nutch本身就是一个完整的网络搜索引擎解决方案，这包括两部分：抓取部分与搜索部分。，容易集成到项目中，而且它是基于Lucene的。
Nutch在抓取中只获取并保存可索引的内容，即在本地并不保存预抓取的网页，这样可以节省大量存储空间而且速度快。可以修剪内容，或者对内容格式进行转换。
在Nutch中，每个segment代表一个索引段，一个索引可以包含多个segment，一个segment可以包含多个document对象，一个document包含多个被成为数据源的Field组成。这个Field用来标识数据源的属性。

这样，只要用户输入预查询的关键字，提交后在Nutch已经生成好的索引Document对象中进行查找，只要匹配就可得出我们需要的查询结果。整个过程是这样，从segments目录按segments和url 获得content, 并按一定算法抽取出包含关键字的文档片断。
在项目中通过Nutch提供的API，获取索引信息。主要涉及以下API：
Hit：与一个索引查询匹配的文档。
HitDetails ：存储在Hit的数据。
Hits：一系列与查询相互匹配的Hit。
NutchBean：
Query：Nutch查询类。

Nutch抓取网站解决方案比起用Heritrix抓取网站解决方案的优势是：
1．我们可以省去解析和提取网页内容的工作。这部分虽然通过HTMLParser解析器可以完成，但仍然需要我们自己做大量的工作才能提取出比较准确和仅仅符合条件的信息内容。而Nutch已经为我们做好了这部分工作。
2．对Heritrix的Extractor和PostProcessor进行扩展也不是件容易的事情，因为网站中不同网页的格式不一定相同，如果找不出规律即使通过扩展过滤后，效果也未必让我们满意。
3． Nutch在抓取中只获取并保存可索引的内容，而在本地并不保存预抓取的网页，这样就节省了大量的存储空间。
4． Nutch的抓取速度要远远快于Heritrix的速度。

网站爬虫解决方案三暨直接嵌入Nutch解决方案

Nuch本身是个搜索引擎的解决方案，它提供一个可以直接嵌入在项目中的应用，如下图所示：

作者：行健 liu_xingjian

转载于:https://www.cnblogs.com/cxccbv/archive/2009/07/23/1529196.html

weixin_30361641

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网站爬虫解决方案

2007年11月09日星期五 16:24 作者:行健 liu_xingjian http://hi.baidu.com/liu%5Fxingjian/blog/item/5304e8609c7c1c47ebf8f810.html 网站爬虫解决方案一暨Heritrix抓取整个步骤包括配置Heritrix处理链、抓取网页、解析和提取内容、建立索引和搜索。一、Heritri...
复制链接

扫一扫