搜索引擎原理

原创 2005年04月25日 12:54:00
    搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。

  真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

  现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。

  搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。  

从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。


建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。


在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 
  搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

  互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

  你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力
[转自:http://www.seo.org.cn/news_view.asp?id=276]

搜索引擎爬虫工作原理-大揭秘(新手推荐看下)

搜索引擎的处理对象是互联网网页,日前网页数量以百亿计,所以搜索引擎首先面临的问题就是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。 网络爬虫即...
  • haolyj98
  • haolyj98
  • 2014年05月19日 14:54
  • 1170

深度解析搜索引擎的原理结构

【说明】本文转自:http://www.mahaixiang.cn/seoyjy/246.html  深度解析搜索引擎的原理结构 对于我们这些做网站优化的来说,如果不懂搜索引擎的原理就来...
  • JXH_123
  • JXH_123
  • 2015年05月14日 21:45
  • 1293

百度搜索引擎工作原理

关于百度以及其它搜索引擎的工作原理,其实大家已经讨论过很多,但随着科技的进步、互联网业的发展,各家搜索引擎都发生着巨大的变化,并且这些变化都是飞快的。我们设计这个章节的目的,除了从官方的角度发出一些声...
  • qizhiqq
  • qizhiqq
  • 2017年05月12日 17:24
  • 960

图像搜索引擎 - 原理篇

对大规模图像搜索引擎开发过程中涉及到的问题及解决方法进行简单综述。
  • u010599509
  • u010599509
  • 2016年06月28日 09:56
  • 963

百度搜索引擎排名原理、因素

搜索引擎排名定义:   在搜索引擎里输入一个关键字,通常得到很多搜索结果,这些搜索结果的排名有先后之分,这就是搜索引擎排名  搜索引擎的排名原理   搜索引擎优化简称SEO,指的是在符合用户友好性及...
  • u011428274
  • u011428274
  • 2015年03月18日 19:07
  • 1278

浅谈搜索引擎工作原理

做为网页开发者,仅仅会编写代码完成业务功能是远远不够的,你做的网站最后需要搜索引擎这个公共入口来呈现给用户。所以搜索引擎优化是及其重要的,而要了解如何优化自己的网站从而适应搜索引擎,我们需要先了解搜索...
  • mevicky
  • mevicky
  • 2015年09月13日 14:23
  • 1899

百度、谷歌搜索引擎原理(转)

第一节 搜索引擎原理 1、基本概念      来源于中文wiki百科的解释:(网络)搜索引擎指自动从互联网搜集信息,经过一定整理以后,提供给用户进行查询的系统。      来源于英文wiki百科的解释...
  • qq_36747842
  • qq_36747842
  • 2017年07月20日 08:13
  • 1566

搜索引擎收录、抓取、排序页面的原理简析

岂论是百度仍是谷歌,岂论是360照常搜狗,都有自身对应的蜘蛛,每一个征采引擎,都有本身稀罕的算法,固然,最关健的照常看baidu与google了,部落发明,通常环境下,只有百度征采上您的某个关健词有排...
  • liuxuekai
  • liuxuekai
  • 2016年07月18日 17:03
  • 693

浅谈搜索引擎普遍原理

1、搜索引擎是什么?搜索引擎就是为用户提供检索服务的系统。2、搜索引擎如何为用户提供检索服务?1>从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页...
  • pangliyewanmei
  • pangliyewanmei
  • 2010年07月07日 17:08
  • 1058

Lucene全文搜索原理与使用

本文中主要是对于Lucene全文搜索的基础原理进行简单的分析,以及Lucene实现全文搜索的流程,之后就是Lucene在Java中的最简单使用:创建索引,查询索引库; 本文中使用的Lucene主要是...
  • yangqian201175
  • yangqian201175
  • 2016年05月20日 17:28
  • 17297
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索引擎原理
举报原因:
原因补充:

(最多只允许输入30个字)