网络爬虫调研报告

最新推荐文章于 2021-12-09 23:20:24 发布

tan625747

最新推荐文章于 2021-12-09 23:20:24 发布

阅读量1.7k

点赞数

文章标签：网络爬虫 lucene 搜索引擎文档 url processing

本文链接：https://blog.csdn.net/tan625747/article/details/6580792

版权

本文是一份关于网络爬虫的调研报告，对比了Apache Nutch和Heritrix两个著名爬虫项目的优缺点。Nutch支持分布式抓取，提供插件框架，易于扩展，但定制能力较弱。Heritrix则强调可扩展性，适合全站内容复制，但配置复杂。Heritrix有Web管理界面，而Nutch更适合构建搜索引擎。根据需求，可以选择适合的爬虫工具。

摘要由CSDN通过智能技术生成

网络爬虫调研报告

调研背景

项目中要对指定的网络资源进行抓取、存储、分类、索引、并提供检索服务。充当全文检索数据库的是Apache组织下的开源项目Lucene 检索工具，而Lucene只是个搜索引擎工具，它提供API接口，通过编写程序对信息进行索引和检索，在其后台需要网络爬虫程序的支持，其目的是通过网络爬虫软件抓取网页，作为提供给Lucene搜索引擎的资源，进行索引和查询。

调研对象

Nutch http://nutch.apache.org/

Heritrix http://crawler.archive.org/

Nutch

Nutch 是 Apache 基金会的一个开源项目，它原本是开源文件索引框架 Lucene 项目的一个子项目，后来渐渐发展成长为一个独立的开源项目。它基于 Java 开发，基于 Lucene 框架，提供 Web 网页爬虫和搜索引擎两部分功能。

Nutch主要分为两个部分：网页爬虫（Crawler）和搜索引擎（Searcher）。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。另外很吸引人的一点在于，它提供了一种插件框架，使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行扩展，正是由于有此框架，使得 Nutch 的插件开发非常容易，第三方的插件也层出不穷，极大的增强了 Nutch 的功能和声誉。

爬虫工作策略

Nutch爬虫的工作策略一般则可以分为累积式抓取（cumulative crawling）和增量式抓取（incremental crawling）两种。

累积式抓取是指从某一个时间点开始，通过遍历的方式抓取系统所能允许存储和处理的所有网页。在理想的软硬件环境下，经过足够的运行时间，累积式抓取的策略可以保证抓取到相当规模的网页集合。但由于Web数据的动态特性，集合中网页的被抓取时间点是不同的，页面被更新的情况也不同，因此累积式抓取到的网页集合事实上并无法与真实环境中的网络数据保持一致。

增量式抓取是指在具有一定量规模的网络页面集合的基础上，采用更新数据的方式选取已有集合中的过时网页进行抓取，以保证所抓取到的数据与真实网络数据足够接近。进行增量式抓取的前提是，系统已经抓取了足够数量的网络页面，并具有这些页面被抓取的时间信息。

面向实际应用环境的网络蜘蛛设计中，通常既包括累积式抓取，也包括增量式抓取的策略。累积式抓取一般用于数据集合的整体建立或大规模更新阶段；而增量式抓取则主要针对数据集合的日常维护与即时更新。

在确定了抓取策略之后，如何从充分利用网络带宽，合理确定网页数据更新的时间点就成了网络蜘蛛运行策略中的核心问题。

总体而言，在合理利用软硬件资源进行针对网络数据的即时抓取方面，已经形成了相对比较成熟的技术和实用性解决方案，这方面目前所需解决的主要问题，是如何更好的处理动态网络数据问题（如数量越来越庞大的Web2.0数据等），以及更好的根据网页质量修正抓取策略的问题。