搜索引擎之概论

2401_83817971

于 2024-04-10 22:12:44 发布

阅读量1k

点赞数 5

分类专栏：程序员文章标签：搜索引擎

本文链接：https://blog.csdn.net/2401_83817971/article/details/137613297

版权

程序员专栏收录该内容

367 篇文章 1 订阅

订阅专栏

所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。

搜索引擎是伴随互联网的发展而产生和发展的，互联网已成为人们学习、工作和生活中不可缺少的平台，几乎每个人上网都会使用搜索引擎。搜索引擎大致经历了四代的发展：

1、第一代搜索引擎

1994年第一代真正基于互联网的搜索引擎Lycos诞生，它以人工分类目录为主，代表厂商是Yahoo，特点是人工分类存放网站的各种目录，用户通过多种方式寻找网站，现在也还有这种方式存在。

2、第二代搜索引擎

随着网络应用技术的发展，用户开始希望对内容进行查找，出现了第二代搜索引擎，也就是利用关键字来查询，最其代表性最成功的是Google，它建立在网页链接分析技术的基础上，使用关键字对网页搜索，能够覆盖互联网的大量网页内容，该技术可以分析网页的重要性后.将重要的结果呈现给用户。

3、第三代搜索引擎

随着网络信息的迅速膨胀，用户希望能快速并且准确的查找到自己所要的信息，因此出现了第三代搜索引擎。相比前两代第三代搜索引擎更加注重个性化、专业化智能化使用自动聚类、分类等人工智能技术，采用区域智能识别及内容分析技术，利用人工介入，实现技术和人工的完美结合，增强了搜索引擎的查询能力。第三代搜索引擎的代表是Google，它以宽广的信息覆盖率和优秀的搜索性能为发展搜索引擎的技术开创了崭新的局面。

4、第四代搜索引擎

随着信息多元化的快速发展，通用搜索引擎在目前的硬件条件下要得到互联网上比较全面的信息是不太可能的，这时，用户就需要数据全面、更新及时、分类细致的面向主题搜索引擎，这种搜索引擎采用特征提取和文本智能化等策略，相比前三代搜索引擎更准确有效，被称为第四代搜索引擎。

工作原理：

搜索引擎的整个工作过程视为三个部分：一是蜘蛛在互联网上爬行和抓取网页信息，并存入原始网页数据库；二是对原始网页数据库中的信息进行提取和组织，并建立索引库；三是根据用户输入的关键词，快速找到相关文档，并对找到的结果进行排序，并将查询结果返回给用户。以下对其工作原理做进一步分析：

一、网页抓取

Spider每遇到一个新文档，都要搜索其页面的链接网页。搜索引擎蜘蛛访问web页面的过程类似普通用户使用浏览器访问其页面，即B/S模式。引擎蜘蛛先向页面提出访问请求，服务器接受其访问请求并返回HTML代码后，把获取的HTML代码存入原始页面数据库。搜索引擎使用多个蜘蛛分布爬行以提高爬行速度。搜索引擎的服务器遍布世界各地，每一台服务器都会派出多只蜘蛛同时去抓取网页。如何做到一个页面只访问一次，从而提高搜索引擎的工作效率。在抓取网页时，搜索引擎会建立两张不同的表，一张表记录已经访问过的网站，一张表记录没有访问过的网站。当蜘蛛抓取某个外部链接页面URL的时候，需把该网站的URL下载回来分析，当蜘蛛全部分析完这个URL后，将这个URL存入相应的表中，这时当另外的蜘蛛从其他的网站或页面又发现了这个URL时，它会对比看看已访问列表有没有，如果有，蜘蛛会自动丢弃该URL，不再访问。
自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。