1.这就是搜索引擎:核心技术详解 --- 搜索引擎及其技术架构

最新推荐文章于 2023-06-09 11:40:24 发布
enlyhua
最新推荐文章于 2023-06-09 11:40:24 发布
阅读量4.3k
点赞数 2
分类专栏：大型网站核心技术
本文链接：https://blog.csdn.net/enlyhua/article/details/104521384
版权
大型网站核心技术专栏收录该内容
32 篇文章 7 订阅
订阅专栏
1.搜索引擎及其技术架构
	　1.2　搜索引擎技术发展史　
	　　1.2.1　史前时代：分类目录的一代　
	　　1.2.2　第一代：文本检索的一代　
	　　1.2.3　第二代：链接分析的一代　
			这一代的搜索引擎充分利用了网页之间的链接关系，并深入挖掘和利用了网页链接所代表的含义。通常而言，网页链接代表了一种推荐关系，所以通过
		  链接分析可以在海量内容中找出重要的网页。这种重要性本质上是对网页流行程度的一种度量，因为被推荐次数多的网页其实代表了具有流行性。搜索引擎
		  通过结合网页流行性和内容相似性来改善搜索质量。
		  	google 率先提出并使用PageRank链接分析技术，并大获成功，这同时引起了学术界和其他商业搜索引擎的关注。后来学术界陆续提出了很多改进的分析算法，
		  目前几乎所有的商业搜索引擎都采取了链接分析技术。
		  	采用链接分析能够有效改善搜索结果质量，但是这种搜索引擎并未考虑用户的个性化要求，所以只要输入的查询请求相同，所有的用户都会获得相同的搜索结果。
		  另外，很多网站拥有者为了获得更高的搜索排名，针对链接分析算法提出了不少链接作弊的方案，这样导致搜索结果质量变差。

	　　1.2.4　第三代：用户中心的一代　
			目前的搜索引擎大都可以归入第三代，即以理解用户需求为核心。不同用户即使输入同一个关键字，但其目的也可能不一样。即使是同一个用户，输入相同的关键词，
		  也可能因为所在的时间和场合不同，需求有所变化。而且目前搜索引擎大都致力于解决如下问题：如何能够理解用户发出的某个很短小的查询背后包含的真正需求，所以
		  这一代搜索引擎称之为以用户为中心的一代。
		  	为了能获得用户的真实需求，目前搜索引擎大都做了很多技术方面的尝试。比如利用用户发送查询词的时间和地理位置信息，利用用户过去发出的查询词及相应的点击
		  记录等历史信息等技术手段，来视图理解用户此时此地的真正需求。

	　1.3　搜索引擎的3个目标　
		搜索引擎可以说是目前所有互联网应用中计数含量最高的一种。希望达到的目的是:更全，更快，更准。
		更全，是从其索引的网络数量而言的，目前任意一个商业搜索引擎网络的覆盖范围都只占了互联网页面的一部分，可以通过提高网络爬虫相关技术达到此目标。
		更快，这个目标是贯穿于搜索引擎的大多数技术方向，比如索引相关技术，缓存等技术的提出都是直接为了达到此目的。而很多其他技术也间接为此服务，即使是分布式海量
	  云存储平台，也是为了能够处理海量的网页数据，已达到对'更全'和'更快'这2个目标的响应和支持。
	  	更准，如何使得搜索结果'更准'是最为关键的目标。无论是排序技术也好，还是链接分析技术也好，或者是用户研究等技术，最终都是为了使结果更准，依次增强用户体验。
	  对于一个搜索引擎来说，达到'更快'，'更全'可以使其不落后于同类产品，但是如果能做到'更准'，则能够构建核心竞争力。

	　1.4　搜索引擎的3个核心问题　
	　　1.4.1　3个核心问题　
			1.用户真正的需求是什么
			2.哪些信息和用户需求是真正相关的
			3.哪些信息是用户可以信赖的

	　　1.4.2　与技术发展的关系　
			对于分类目录式搜索引擎，其重点关注的是信息的可靠性，都是人工筛选的，可靠性比较强。但是对于用户需求和相关性不做考虑。
			对于第一代文本检索式搜索，其重点关注的是查询关键字和网页内容的相关性。这种搜索方式假定用户输入的查询关键字就是用户的真实需求。
			第二代搜素引擎引入链接分析技术，链接关系代表了一种推荐含义，而获得越来越多推荐的网页其链接分析得分也越高，这其实是一种对网页可信度的
		  度量标准。同时，第二代搜素引擎也利用了文本检索模型，来计算查询和网页内容的相关性。综合了信息的相关性和可行性，但没用对用户需求做关注。
		  	第三代搜索引擎的重点则是用户的真实需求，其他方面兼顾了第二代搜索引擎的优点，即第三代同时考虑了3个核心问题。

	　1.5　搜索引擎的技术架构　	
			搜索引擎的信息来源于互联网网页，通过网络爬虫将整个互联网的信息获取到本地，因为互联网页面中有相当大比例的内容是完全相同或者是重复的，
		  '网页去重'模块会对此检查，并去除重复内容。
		  	在此之后，搜索引擎会对网页进行分析，抽取出网页主体内容，以及页面中包含的指向其他页面的链接。为了加快响应用户查询的速度，网页内容通过
		  '倒排索引'这种高效查询数据结构保持，而网页之间的链接关系也会予以保存。之所以要保存链接关系，是因为这种关系在网页相关性排序阶段是可以利用
		  的，通过'链接分析'可以判断页面的相对重要性，对于为用户提供准确的搜索结果帮助很大。
		  	由于网页数量太多，搜索引擎不仅需要保存页面原始信息，还要存储一些中间的处理结果，使用单台或者少量的机器明显是不显示的。google等商业
		  搜索引擎为此开发了一整套云存储与云计算平台，使用数以万计的普通pc搭建了海量信息的可靠存储于计算架构，以此作为搜索引擎及其相关的基础支撑。
		  	上面所述的是搜索引擎如何获取并存储海量的页面相关信息，这些功能因为不需要实时计算，所以可以被看做是搜索引擎的后台计算系统。搜索引擎的
		  最重要目的是为用户提供准确全面的搜索结果，如何响应用户查询并实时的提供准确结果构成了搜索引擎前台计算系统。
		  	当搜索引擎接收到用户的查询词后，首先需要对查询词进行分析，希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。在此之后，首先在
		  缓存中查找，搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果，如果能够在缓存系统找到满足用户需求的信息，则可以直接将搜索结果返回给用户。
		  这样既省略重复计算对资源的消耗，又加快了响应速度；如果保存在缓存的信息无法满足用户，搜索引擎需要调用'网页排序'模块功能，根据用户的查询实时
		  计算哪些网页是满足用户信息需求的，并排序输出作为搜索结果。而网页排序最重要的两个参考因素中，一个是内容相似性因素，即哪些网页是和用户查询
		  密切相关的；另外一个是网页重要性因素，即哪些网页是质量较好或相对重要的，这点往往可以从链接分析的结果获取。综合以上2个因素考虑，就可以对
		  网页进行排序，作为用户查询的搜索结果。
		  	除了上述的子功能模块，搜索引擎的'反作弊'模块成为日益重要的功能。搜索引擎作为互联网用户的上网入口，对网络流量的引导和分流至关重要，
		  甚至可以说起了决定性的作用。于是，各种'作弊'方式逐渐流行，通过各种手段将网页的搜索排名提高都与其网页质量不相称的位置，这会严重影响用户的
		  搜索体验。所以，如何自动发现作弊网页并对其处罚，成为搜索引擎非常重要的一部分。