搜索引擎的发展

这片文章整理了搜索引擎的发展历史。
1995 成立了一大批搜索公司
yahoo 人工编辑导航目录,将重要站点份门别类整理,满足查询需要
大多数公司基于传统的信息检索服务。

1998Google
引入PageRank

搜索解决信息过载问题
垂直搜索和通用搜索的竞争

搜索引擎发展历程
分类目录->文本检索->连接分析->用户中心

导航时代
分类目录: 人工整理 特点查询慢 准确度高 不适合大量数据
文本检索: 采用布尔模型 向量空间模型 概率模型 来计算用户查询关键词和网页文本内容相关程度
链接分析: 利用网页流行性和推荐程度
用户中心: 同样的查询词 在不同时间场合有不同 来试图理解用户的真正需要

搜索引擎3个目标: 更全 更快 更准

常用的技术:
索引
索引压缩
排序
链接分析
作弊性
用户研究
云存储
爬虫
网页去重
缓存

搜索引擎3个核心问题
1.用户的真正需要是什么?
2.哪些信息是用户真正相关的?
3.那些信息是用户可以依赖的?

搜索引擎的技术架构
要求:从架构层面 能够对海量页面抓取 存储 处理能力

搜索引擎架构图
信息来源于互联网网页,通过爬虫获取到本地,网页去重 ,网页解析,通过倒排索引保存 并且保存链接关系 通过链接分析 判断相对重要性 (针对于准确性)最后返回给用户。
这里写图片描述
这张来自网络的图片

云平台和计算平台提供基础支持
反作弊 为了发现作弊网页(比如广告)并处罚。

但是百度搜索引擎好像没有反作弊模块。。。。。。。。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值