搜索引擎分类与工作原理

搜索引擎分类 

 搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎( Full Text Search Engine)、目录索引类搜索引擎(Search IndexDirectory)和元搜索引擎(Meta Search Engine)。  

 ■全文搜索引擎  

 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有 Google、FastAllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。  

 ■目录索引 

 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词( Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。  

 ■元搜索引擎  (META Search Engine)  

 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有 InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo  

 除上述三大类引擎外,还有以下几种非主流形式: 

 1、集合式搜索引擎:如 HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。   

 2、门户搜索引擎:如 AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。   

 3、免费链接列表( Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。   

 由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。 

 搜索引擎是怎么工作的 

 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。 

 现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的 URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。  

   搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序

 从互联网上抓取网页 

 利用能够从互联网上自动收集网页的 Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。  

 建立索引数据库 

 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在 URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大些与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。   

 在索引数据库中搜索排序 

 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,网站排名越靠前。  

 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 

 搜索引擎的 Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。  

 互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千 G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。   

 你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有你而没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。

来自:http://blog.csdn.net/ackarlix/archive/2007/08/31/1766259.aspx

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Bing搜索引擎是微软公司推出的一款互联网搜索引擎,其原理主要包括以下几个方面: 1. 索引建立:Bing搜索引擎首先通过网络爬虫抓取互联网上的网页内容,并将这些网页进行解析、整理、分类和处理,构建起一个巨大的索引数据库。这个索引数据库包含了网页的URL、标题、内容、关键词等信息。 2. 关键词匹配:当用户输入查询关键词时,Bing搜索引擎会根据用户输入的关键词去检索索引数据库,寻找与关键词相关的网页。在这一过程中,Bing引擎使用了复杂的算法和排名机制,根据网页的相关度、质量、链接数量等因素对网页进行排序,并将最匹配的结果返回给用户。 3. 搜索结果呈现:Bing搜索引擎将匹配的搜索结果以页面的形式呈现给用户。搜索结果页面通常包括网页的标题、摘要、URL以及相关的图片、视频等多媒体内容。为了提高用户体验,Bing搜索引擎还提供了相关搜索、快速导航、动态图像等功能,以帮助用户更快地找到所需信息。 4. 算法更新:Bing搜索引擎会不断进行算法的优化和更新,以提高搜索结果的质量和准确性。微软的工程师团队会根据用户的反馈和行为数据来优化搜索算法,使其能够更好地满足不同用户的需求。 总之,Bing搜索引擎通过构建庞大的索引数据库、匹配用户查询关键词、根据排名算法对搜索结果进行排序,并以页面形式呈现给用户,从而提供了高效、准确的搜索服务。同时,Bing还不断优化更新算法,以提供更好的用户体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值