中文搜索引擎技术揭密:系统架构(三)

来源:e800.com.cn


搜索引擎的系统架构

这里主要针对全文检索搜索引擎的系统架构进行说明,下文中提到的搜索引擎如果没有特殊说明也是指全文检索搜索引擎。搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。  

1、从互联网上抓取网页

利用能够从互联网上自动收集网页的 网络蜘蛛 程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集到服务器中。

2、建立索引数据库

由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

3、在索引数据库中搜索

当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

4、对搜索结果进行处理排序

所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

下图是一个典型的搜索引擎系统架构图,搜索引擎的各部分都会相互交错相互依赖。其处理流程按照如下描述:

网络蜘蛛 ”从互联网上抓取网页,把网页送入“ 网页数据库 ”,从网页中“ 提取URL ”,把URL送入“ URL数据库 ”,“ 蜘蛛控制 ”得到网页的URL,控制“ 网络蜘蛛 ”抓取其它网页,反复循环直到把所有的网页抓取完成。

系统从“ 网页数据库 ”中得到文本信息,送入“ 文本索引 ”模块建立索引,形成“ 索引数据库 ”。同时进行“ 链接信息提取 ”,把链接信息(包括锚文本、链接本身等信息)送入“ 链接数据库 ”,为“ 网页评级 ”提供依据。

“ 用户 ”通过提交查询请求给“ 查询服务器 ”,服务器在“ 索引数据库 ”中进行相关网页的查找,同时“ 网页评级 ”把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过“ 查询服务器 ”按照相关度进行排序,并提取关键词的内容摘要,组织最后的页面返回给“ 用户 ”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值