搜索引擎概论

目录

搜素引擎的三个目标

搜索引擎的三个核心问题:

搜索引擎的技术架构


搜素引擎的三个目标

1)更全:所谓“更全”,是从其索引的网页数量而言的,目前任意一个商业搜 索引擎索引网页的覆盖范围都只占了互联网页面的一部分,可以通过提 高网络爬虫相关技术来达到此目标

2)更快:“更快”这个目标则贯穿于搜索引擎的大多数技术方向,比如索引相 关技术、缓存等技术的提出都是直接为了达到此目的。而其他很多技术 也间接为此服务,即使是分布式海量云存储平台,也是为了能够处理海 量的网页数据,以达到对“更全”和“更快”这两个目标的响应和支持。

3)更准:“更准”是最为关键的目标。无 论是排序技术也好,还是链接分析技术也好,抑或是用户研究等技术, 最终都是为了使搜索结果更加准确,以此增强用户体验。对于一个搜索 引擎来说,达到“更全”与“更快”可以使其不落后于同类产品,但是如果 能够做到“更准”,则能够构建核心竞争能力。

搜索引擎的三个核心问题:

1)用户真正需求的是什么?

搜索引擎用户输入的查询请求非常简短,查询的平均长度是2.7个 单词。如何从如此短的查询请求里获知隐藏其后的真实用户需求?这是 搜索引擎首先需要解决的非常重要的问题。如果不能获取用户真正的搜 索意图,搜索的准确性无从谈起,即使后续内容匹配算法再精巧也无济 于事。 从另外一个角度看,即使是同一个查询词,不同用户的搜索目的是 不同的,如何识别这种差异?如果更进一步,即使是同一个用户发出的 同一个查询词,也可能因为用户所处场景不同,其目的存在差异,又如 何识别?所有这些都是搜索引擎需要解决的核心问题,即用户在此时此 地发出某个查询,他的真实搜索意图到底是什么。

2)哪些信息是和用户的需求真正相关的?

第一个问题是站在用户的角度上考虑的,这个问题则是站在数据服务者的角度考虑的.搜索引擎本质上是一个匹配过程,即从海量数 据里面找到能够匹配用户需求的内容。所以,在明确用户真实意图这个 前提条件做到后,如何找到能够满足用户需求的信息则成为关键因素。 判断内容和用户查询关键词的相关性,一直是信息检索领域的核心 研究课题,不断提出的信息检索模型即在试图解决这个问题。相关研究 历时近60年,尽管不断有新方法提出,检索效果总体而言也在逐步改 进,但是这个领域的基本指导思想还是基于关键词的匹配,包括现在所 有搜索引擎的相关性计算部分,其基本计算思路和几十年前相比并无本 质差异。 如何能够在这个核心问题上有所突破?这个问题将会越来越重要, 而从关键词匹配到让机器真正理解信息所代表的含义是解决这个问题必 须迈过的门槛。从目前来看,尽管包括人工智能在内的很多相关研究领 域对此有所进展,但是短期内还未能看到解决这一问题的清晰技术思 路。

3)哪些用户是可以信赖的?

搜索引擎需要处理的信息对象是互联网上任意用户发布的内容,但 是内容发布者所发布内容是否可信并无明确判断标准。这其间存在恶意 的信息发布者故意歪曲事实的情况,也有信息发布者无心的错误。在同 一个查询的搜索结果内,完全可能存在相互矛盾的搜索答案,此时信息 的可信性即成为突出问题。 比如用户想到某一餐馆就餐,在做出消费决定前,在网上搜索曾在 此餐馆就餐的用户的过往评论,以此辅助决策。而搜索到的相关内容, 完全有可能是餐馆故意发布的一些好评信息,以此误导消费者。但是如 果信息发布者是该用户的朋友,那么信息的可信性就会大大增加。

搜索引擎的技术架构

搜索引擎的信息源来自于互联网网页,通过网络爬虫将整个互联网 的信息获取到本地,因为互联网页面中有相当大比例的内容是完全相同 或者近似重复的,“网页去重”模块会对此做出检测,并去除重复内容。 在此之后,搜索引擎会对网页进行解析,抽取出网页主体内容,以 及页面中包含的指向其他页面的链接。为了加快响应用户查询的速度, 网页内容通过“倒排索引”这种高效查询数据结构来保存,而网页之间的 链接关系也会予以保存。之所以要保存链接关系,是因为这种关系在网 页相关性排序阶段是可利用的,通过“链接分析”可以判断页面的相对重 要性,对于为用户提供准确的搜索结果帮助很大。 由于网页数量太多,搜索引擎不仅需要保存网页原始信息,还要存 储一些中间的处理结果,使用单台或者少量的机器明显是不现实的。 Google等商业搜索引擎为此开发了一整套云存储与云计算平台,使用数 以万计的普通PC搭建了海量信息的可靠存储与计算架构,以此作为搜 索引擎及其相关应用的基础支撑。优秀的云存储与云计算平台已经成为 大型商业搜索引擎的核心竞争力。 上面所述是搜索引擎如何获取并存储海量的网页相关信息,这些功 能因为不需要实时计算,所以可以被看做是搜索引擎的后台计算系统。 搜索引擎的最重要目的是为用户提供准确全面的搜索结果,如何响应用 户查询并实时地提供准确结果构成了搜索引擎前台计算系统。 当搜索引擎接收到用户的查询词后,首先需要对查询词进行分析, 希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。在此 之后,首先在缓存中查找,搜索引擎的缓存系统存储了不同的查询意图 对应的搜索结果,如果能够在缓存系统找到满足用户需求的信息,则可 以直接将搜索结果返回给用户,这样既省掉了重复计算对资源的消耗, 又加快了响应速度;如果保存在缓存的信息无法满足用户需求,搜索引 擎需要调用“网页排序”模块功能,根据用户的查询实时计算哪些网页是 满足用户信息需求的,并排序输出作为搜索结果。而网页排序最重要的 两个参考因素中,一个是内容相似性因素,即哪些网页是和用户查询密 切相关的;另外一个是网页重要性因素,即哪些网页是质量较好或者相 对重要的,这点往往可以从链接分析的结果获得。结合以上两个考虑因 素,就可以对网页进行排序,作为用户查询的搜索结果。 除了上述的子功能模块,搜索引擎的“反作弊”模块成为日益重要的 功能。搜索引擎作为互联网用户的上网入口,对于网络流量的引导与分 流至关重要,甚至可以说起了决定性的作用。于是,各种“作弊”方式逐 渐流行,通过各种手段将网页的搜索排名提高到与其网页质量不相称的 位置,这会严重影响用户的搜索体验。所以,如何自动发现作弊网页并 对其处罚,成为搜索引擎非常重要的组成部分。 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Shallow_Carl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值