初识Nutch框架

最新推荐文章于 2023-07-26 11:21:42 发布

RuizeMa

最新推荐文章于 2023-07-26 11:21:42 发布

阅读量1.2k

点赞数

分类专栏： Nutch 文章标签：框架 lucene 搜索引擎数据结构 internet database

本文链接：https://blog.csdn.net/RuizeMa/article/details/6665288

版权

Nutch 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

简介

Nutch 是一个使用Java编写的开源的搜索引擎框架，基于开源框架Lucene，是Lucene工程的一个子项目，Lucene为 Nutch 提供了文本索引和搜索的API。

何时使用Lucene？何时使用Nutch？

如果你不需要抓取数据的话，应该使用Lucene。

即假如你有数据源，需要为这些数据提供一个搜索页面。在这种情况下，最好的方式是直接从数据库中取出数据并用Lucene API建立索引。

如果需要抓取数据，则应选择Nutch，获取到抓取的数据以后，再使用Lucene提供的API实现文本索引和信息检索。

Nutch架构

总体上Nutch的架构可以分为2个部分：抓取部分和搜索部分。

1、抓取程序：
抓取程序是被Nutch的抓取工具驱动的。这是一组工具，用来建立和维护几个不同的数据结构： web database, a set of segments, and the index。下面我们逐个解释上面提到的3个不同的数据结构。
(1) web database

The web database，或者WebDB，是一个特殊存储数据结构，用来映像被抓取网站数据的结构和属性的集合。WebDB 用来存储从抓取开始（包括重新抓取）的所有网站结构数据和属性。WebDB 只是被抓取程序使用，搜索程序并不使用它。WebDB 存储2种实体：页面和链接。页面表示网络上的一个网页，这个网页的Url作为标示被索引，同时建立一个对网页内容的MD5 哈希签名。跟网页相关的其它内容也被存储，包括：页面中的链接数量（外链接），页面抓取信息（在页面被重复抓取的情况下），还有表示页面级别的分数 score 。链接表示从一个网页的链接到其它网页的链接。因此 WebDB 可以说是一个网络图，节点是页面，链接是边。
(2) Segment

Segment 是网页的集合，并且它被索引。 Segment 的 Fetchlist 是抓取程序使用的 url 列表，它是从 WebDB中生成的。Fetcher 的输出数据是从 fetchlist 中抓取的网页。Fetcher 的输出数据先被反向索引，然后索引后的结果被存储在segment 中。 Segment 的生命周期是有限制的，当下一轮抓取开始后它就没有用了。默认的重新抓取间隔是30天。因此删除超过这个时间期限的segment是可以的。而且也可以节省不少磁盘空间。Segment 的命名是日期加时间，因此很直观的可以看出他们的存活周期。
(3) Index

索引库是反向索引所有系统中被抓取的页面，他并不直接从页面反向索引产生，它是合并很多小的 segment 的索引中产生的。Nutch 使用 Lucene 来建立索引，因此所有 Lucene 相关的工具 API 都用来建立索引库。需要说明的是 Lucene 的 segment 的概念和 Nutch 的 segment 概念是完全不同的，不要混淆哦。可以参考车东(www.chedong.com)的相关文章。简单来说 Lucene 的 segment 是 Lucene 索引库的一部分，而 Nutch 的 Segment 是 WebDB 中被抓取和索引的一部分。

2、搜索程序

搜索程序是在索引库建立以后，在此基础上实现从索引库中检索，满足用户的检索需求。搜索程序需要操作索引库，同时响应客户端用户。

架构综述

抓取程序抓取页面并把抓取回来的数据做成反向索引，搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引。两者都使用索引中的字段。

实际上搜索程序和抓取程序可以分别位于不同的机器上。

Nutch的安装

Nutch 的安装分为3个层次：

基于本地文件系统，基于局域网，或者基于 internet 。

不同的安装方式具有不同的特色。

比如：索引一个本地文件系统相对于其他两个来说肯定是要稳定多了，因为没有网络错误也不同缓存文件的拷贝。基于Internet 的搜索又是另一个极端：抓取数以千计的网页有很多技术问题需要解决：我们从哪些页面开始抓取？我们如何分配抓取工作？何时需要重新抓取？我们如何解决失效的链接，没有响应的站点和重复的内容？还有如何解决对大型数据的上百个并发访问？搭建这样一个搜索引擎是一笔不小的投资呀！在 " Building Nutch: Open Source Search 的作者 Mike Cafarella 和 Doug Cutting 总结如下：
……一个具有完全功能的搜索系统：1亿页面索引量，每秒2个并发索引，需要每月800美元。10亿页面索引量，每秒50个页面请求，大概需要每月30000美元。

可见，Nutch支持分布式处理。

Nutch的优点

1、透明度

Nutch是开放源代码的，因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的，我们无法知道为什么搜索出来的排序结果是如何算出来的。更进一步，一些搜索引擎允许竞价排名，比如百度，这样的索引结果并不是和站点内容相关的。因此 Nutch 对学术搜索和政府类站点的搜索来说，是个好选择。因为一个公平的排序结果是非常重要的。

2、对搜索引擎的理解

我们并没有google的源代码，因此学习搜索引擎Nutch是个不错的选择。了解一个大型分布式的搜索引擎如何工作是一件让人很受益的事情。在写Nutch的过程中，从学院派和工业派借鉴了很多知识：比如：Nutch的核心部分目前已经被重新用 Map Reduce 实现了。看过开复演讲的人都知道 Map Reduce 的一点知识吧。Map Reduce 是一个分布式的处理模型，最先是从 Google 实验室提出来的。你也可以从下面获得更多的消息。
http://www.domolo.com/bbs/list.asp?boardid=29
http://domolo.oicp.net/bbs/list.asp?boardid=29
并且 Nutch 也吸引了很多研究者，他们非常乐于尝试新的搜索算法，因为对Nutch 来说，这是非常容易实现扩展的。

3、扩展性

你是不是不喜欢其他的搜索引擎展现结果的方式呢？那就用 Nutch 写你自己的搜索引擎吧。 Nutch 是非常灵活的：他可以被很好的客户订制并集成到你的应用程序中：使用Nutch 的插件机制，Nutch 可以作为一个搜索不同信息载体的搜索平台。当然，最简单的就是集成Nutch到你的站点，为你的用户提供搜索服务。

上面是对Nutch的初步认识，接下来将进一步学习如何不熟运行Nutch。

RuizeMa

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
初识Nutch框架

简介Nutch 是一个使用Java编写的开源的搜索引擎框架，基于开源框架Lucene，是Lucene工程的一个子项目，Lucene为 Nutch 提供了文本索引和搜索的API。何时使用Lucene？何时使用Nutch？如果你不需要抓取数据的话，应该
复制链接

扫一扫

专栏目录