搜索引擎(二)-- 技术架构

搜索引擎要在保证搜索结果质量的前提下,对百亿计的海量网页进行抓取、存储、处理。优秀的搜索引擎需要复杂的架构和算法支撑上述功能并对用户的请求快速而准确的响应。搜索引擎从宏观上可看成两大模块。后台计算系统和前台计算系统。搜索引擎技术架构图如图所示。

这里写图片描述

后台计算系统主要负责海量信息获取与存储。搜索引擎利用网络爬虫将全网信息本地化并去重。通过网页解析,抽取信息主题及其他URL。网页内容通过“倒排索引”的高效查询数据结构存储,并保存网页间的链接关系。通过链接分析判断网页重要性,并利用倒序索引进行网页相关性排序。前台计算系统负责响应用户查询。当接收到用户查询词后,分析用户真正意图。首先在缓存中查询满足用户需求的信息,若找到则直接响应给用户,减少重复计算,加快响应速度;否则调用网页排序模块,同时考虑网页的内容相关性及重要性,对网页排序,作为用户查询的搜索结果。除上述基础功能外,日前,搜索引擎“反作弊”也被日益关注。“反作弊”即对恶意提高网页排名等进行防护并处罚。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值