搜索引擎学习笔记-第二章 Web搜索引擎工作原理和体系结构

搜素引擎,应用软件系统,网络应用软件系统。三个功能模块,或说三个子系统:即网页搜集、预处理和查询服务。相互独立它们的工作形成了搜索引擎工作的三个阶段,通常分别由人工启动。
第二章 Web搜索引擎工作原理和体系结构
基本要求
能够接受用户通过浏览器提交的查询词或者短语,记作q。在一个可以接受的时间内返回一个和用户查询匹配的网页信息列表,记作L。
注意:
“可以接受的时间”即是响应时间。保证秒级响应时间。
“匹配”指的是网页中以某种形式包含q的内容。其中最简单、最常见的形式就是q在其中直接出现。
“列表”,这蕴含这一种“序”。在绝大多数情况下,L是相当长的。不仅是因为Web的信息量大,也是由于搜索引擎的查询方式简单。简单意味着抽象;抽象意味着有更多的具体事务可能是它的体现。很多都没用。
网页搜集
工作方式,这个软件系统操作的数据不仅包括内容不可预测的用户查询,还要包括在数量上动态变化的海量网页,并且这些网页不会主动送到系统来,而是需要由系统去抓取。
首先,考虑抓取时机:预先抓取搜集一批网页,而不是即时查询时去抓取。 那么这一批网页如何维护?两种考虑:
定期搜集,每次搜集替换上一次的内容,我们称之为ie“批量搜索”。花销很大,因此通常两次搜集的间隔时间不会很短(例如早期天网的版本大约每3个月一次,Google在一段时间曾是28天

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值