Google就是典型的分布式搜索引擎,它由上万台计算机组成。下面主要讲一下分布式搜索引擎的核心问题以及主要的分布式搜索引擎设计方法。
分布式搜索引擎的最主要的核心问题:
(1)分布的信息获取和计算,以及对此进行的数据统一;
这里面包括爬虫或者相应的数据获取机制的分布,对信息进行加工的统一管理。
(2)数据处理后的分布存储和管理;
主要是文件的准确定位和更新、增加、删除、移动的机制。
(3)前端搜索服务的分布。
主要处理大规模并发请求的分布机制。
针对以上的3个需求,可以设计如下的4类分布式搜索引擎:
(1)分布式元搜索引擎
(2)散列式分布搜索引擎
(3)P2P分布式搜索引擎
(4)局部遍历型搜索引擎
下面的文章会逐一介绍。
参考:《搜索引擎 原理、实践与应用》(卢亮、张博文编著)