中文搜索引擎技术揭密：系统架构(三)

最新推荐文章于 2008-12-09 16:40:00 发布

Kangsheng

最新推荐文章于 2008-12-09 16:40:00 发布

阅读量1.9k

点赞数

分类专栏： 1. 搜索引擎理论文章标签：搜索引擎数据库全文检索互联网服务器 url

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kangsheng/article/details/323636

版权

1. 搜索引擎理论专栏收录该内容

18 篇文章 0 订阅

订阅专栏

来源：e800.com.cn

搜索引擎的系统架构

这里主要针对全文检索搜索引擎的系统架构进行说明，下文中提到的搜索引擎如果没有特殊说明也是指全文检索搜索引擎。搜索引擎的实现原理，可以看作四步：从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。　　

1、从互联网上抓取网页

利用能够从互联网上自动收集网页的网络蜘蛛程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集到服务器中。

2、建立索引数据库

由索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。

3、在索引数据库中搜索

当用户输入关键词搜索后，分解搜索请求，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

4、对搜索结果进行处理排序

所有相关网页针对该关键词的相关信息在索引库中都有记录，只需综合相关信息和网页级别形成相关度数值，然后进行排序，相关度越高，排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

下图是一个典型的搜索引擎系统架构图，搜索引擎的各部分都会相互交错相互依赖。其处理流程按照如下描述：

“ 网络蜘蛛 ”从互联网上抓取网页，把网页送入“ 网页数据库 ”，从网页中“ 提取URL ”，把URL送入“ URL数据库 ”，“ 蜘蛛控制 ”得到网页的URL，控制“ 网络蜘蛛 ”抓取其它网页，反复循环直到把所有的网页抓取完成。

系统从“ 网页数据库 ”中得到文本信息，送入“ 文本索引 ”模块建立索引，形成“ 索引数据库 ”。同时进行“ 链接信息提取 ”，把链接信息（包括锚文本、链接本身等信息）送入“ 链接数据库 ”，为“ 网页评级 ”提供依据。

“ 用户 ”通过提交查询请求给“ 查询服务器 ”，服务器在“ 索引数据库 ”中进行相关网页的查找，同时“ 网页评级 ”把查询请求和链接信息结合起来对搜索结果进行相关度的评价，通过“ 查询服务器 ”按照相关度进行排序，并提取关键词的内容摘要，组织最后的页面返回给“ 用户 ”。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。