搜索引擎概论

最新推荐文章于 2024-08-07 22:42:03 发布

Shallow_Carl

最新推荐文章于 2024-08-07 22:42:03 发布

阅读量318

点赞数

分类专栏：搜索引擎文章标签：搜索引擎爬虫 python

本文链接：https://blog.csdn.net/Alanadle/article/details/120786691

版权

搜索引擎专栏收录该内容

16 篇文章 0 订阅

订阅专栏

搜素引擎的三个目标

搜索引擎的三个核心问题:

搜索引擎的技术架构

搜素引擎的三个目标

1)更全:所谓“更全”，是从其索引的网页数量而言的，目前任意一个商业搜索引擎索引网页的覆盖范围都只占了互联网页面的一部分，可以通过提高网络爬虫相关技术来达到此目标

2)更快:“更快”这个目标则贯穿于搜索引擎的大多数技术方向，比如索引相关技术、缓存等技术的提出都是直接为了达到此目的。而其他很多技术也间接为此服务，即使是分布式海量云存储平台，也是为了能够处理海量的网页数据，以达到对“更全”和“更快”这两个目标的响应和支持。

3)更准:“更准”是最为关键的目标。无论是排序技术也好，还是链接分析技术也好，抑或是用户研究等技术，最终都是为了使搜索结果更加准确，以此增强用户体验。对于一个搜索引擎来说，达到“更全”与“更快”可以使其不落后于同类产品，但是如果能够做到“更准”，则能够构建核心竞争能力。

搜索引擎的三个核心问题:

1)用户真正需求的是什么?

搜索引擎用户输入的查询请求非常简短，查询的平均长度是2.7个单词。如何从如此短的查询请求里获知隐藏其后的真实用户需求？这是搜索引擎首先需要解决的非常重要的问题。如果不能获取用户真正的搜索意图，搜索的准确性无从谈起，即使后续内容匹配算法再精巧也无济于事。从另外一个角度看，即使是同一个查询词，不同用户的搜索目的是不同的，如何识别这种差异？如果更进一步，即使是同一个用户发出的同一个查询词，也可能因为用户所处场景不同，其目的存在差异，又如何识别？所有这些都是搜索引擎需要解决的核心问题，即用户在此时此地发出某个查询，他的真实搜索意图到底是什么。

2)哪些信息是和用户的需求真正相关的?

第一个问题是站在用户的角度上考虑的,这个问题则是站在数据服务者的角度考虑的.搜索引擎本质上是一个匹配过程，即从海量数据里面找到能够匹配用户需求的内容。所以，在明确用户真实意图这个前提条件做到后，如何找到能够满足用户需求的信息则成为关键因素。判断内容和用户查询关键词的相关性，一直是信息检索领域的核心研究课题，不断提出的信息检索模型即在试图解决这个问题。相关研究历时近60年，尽管不断有新方法提出，检索效果总体而言也在逐步改进，但是这个领域的基本指导思想还是基于关键词的匹配，包括现在所有搜索引擎的相关性计算部分，其基本计算思路和几十年前相比并无本质差异。如何能够在这个核心问题上有所突破？这个问题将会越来越重要，而从关键词匹配到让机器真正理解信息所代表的含义是解决这个问题必须迈过的门槛。从目前来看，尽管包括人工智能在内的很多相关研究领域对此有所进展，但是短期内还未能看到解决这一问题的清晰技术思路。

3)哪些用户是可以信赖的?

搜索引擎需要处理的信息对象是互联网上任意用户发布的内容，但是内容发布者所发布内容是否可信并无明确判断标准。这其间存在恶意的信息发布者故意歪曲事实的情况，也有信息发布者无心的错误。在同一个查询的搜索结果内，完全可能存在相互矛盾的搜索答案，此时信息的可信性即成为突出问题。比如用户想到某一餐馆就餐，在做出消费决定前，在网上搜索曾在此餐馆就餐的用户的过往评论，以此辅助决策。而搜索到的相关内容，完全有可能是餐馆故意发布的一些好评信息，以此误导消费者。但是如果信息发布者是该用户的朋友，那么信息的可信性就会大大增加。

搜索引擎的技术架构

搜索引擎的信息源来自于互联网网页，通过网络爬虫将整个互联网的信息获取到本地，因为互联网页面中有相当大比例的内容是完全相同或者近似重复的，“网页去重”模块会对此做出检测，并去除重复内容。在此之后，搜索引擎会对网页进行解析，抽取出网页主体内容，以及页面中包含的指向其他页面的链接。为了加快响应用户查询的速度，网页内容通过“倒排索引”这种高效查询数据结构来保存，而网页之间的链接关系也会予以保存。之所以要保存链接关系，是因为这种关系在网页相关性排序阶段是可利用的，通过“链接分析”可以判断页面的相对重要性，对于为用户提供准确的搜索结果帮助很大。由于网页数量太多，搜索引擎不仅需要保存网页原始信息，还要存储一些中间的处理结果，使用单台或者少量的机器明显是不现实的。 Google等商业搜索引擎为此开发了一整套云存储与云计算平台，使用数以万计的普通PC搭建了海量信息的可靠存储与计算架构，以此作为搜索引擎及其相关应用的基础支撑。优秀的云存储与云计算平台已经成为大型商业搜索引擎的核心竞争力。上面所述是搜索引擎如何获取并存储海量的网页相关信息，这些功能因为不需要实时计算，所以可以被看做是搜索引擎的后台计算系统。搜索引擎的最重要目的是为用户提供准确全面的搜索结果，如何响应用户查询并实时地提供准确结果构成了搜索引擎前台计算系统。当搜索引擎接收到用户的查询词后，首先需要对查询词进行分析，希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。在此之后，首先在缓存中查找，搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果，如果能够在缓存系统找到满足用户需求的信息，则可以直接将搜索结果返回给用户，这样既省掉了重复计算对资源的消耗，又加快了响应速度；如果保存在缓存的信息无法满足用户需求，搜索引擎需要调用“网页排序”模块功能，根据用户的查询实时计算哪些网页是满足用户信息需求的，并排序输出作为搜索结果。而网页排序最重要的两个参考因素中，一个是内容相似性因素，即哪些网页是和用户查询密切相关的；另外一个是网页重要性因素，即哪些网页是质量较好或者相对重要的，这点往往可以从链接分析的结果获得。结合以上两个考虑因素，就可以对网页进行排序，作为用户查询的搜索结果。除了上述的子功能模块，搜索引擎的“反作弊”模块成为日益重要的功能。搜索引擎作为互联网用户的上网入口，对于网络流量的引导与分流至关重要，甚至可以说起了决定性的作用。于是，各种“作弊”方式逐渐流行，通过各种手段将网页的搜索排名提高到与其网页质量不相称的位置，这会严重影响用户的搜索体验。所以，如何自动发现作弊网页并对其处罚，成为搜索引擎非常重要的组成部分。

Shallow_Carl

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
搜索引擎概论

目录搜素引擎的三个目标搜索引擎的三个核心问题:搜索引擎的技术架构搜素引擎的三个目标1)更全:所谓“更全”，是从其索引的网页数量而言的，目前任意一个商业搜索引擎索引网页的覆盖范围都只占了互联网页面的一部分，可以通过提高网络爬虫相关技术来达到此目标2)更快:“更快”这个目标则贯穿于搜索引擎的大多数技术方向，比如索引相关技术、缓存等技术的提出都是直接为了达到此目的。而其他很多技术也间接为此服务，即使是分布式海量云存储平台，也是为了能够处理海量的网页数据，以达到对“更全”和“更
复制链接

扫一扫