揭开神秘面纱,搜索引擎原理浅析[转]

原创 2005年04月25日 12:17:00

在浩如烟海的Internet上,特别是其上的Web(World Wide Web万维网)上,不会搜索,就不会上网。网虫朋友们,你了解搜索引擎吗?它们是怎么工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的话题。

  一、搜索引擎的分类

  获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。

  全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。

  分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”(http://www.hao123.com/)。

  全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,比如Google的全文搜索(http://www.google.com/intl/zh-CN/);把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,比如新浪搜索(http://dir.sina.com.cn/)和雅虎中国搜索(http://cn.search.yahoo.com/dirsrch/)。

  在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类:

  ⒈元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎”
(http://www.hsfz.net/fish/),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。

  ⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,比如“网际瑞士军刀”(http://free.okey.net/%7Efree/search1.htm)。

  二、搜索引擎的工作原理

  全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。
【转自:http://www.pconline.com.cn/pcedu/soft/wl/assist/0408/438518.html

带你一步一步揭开Rxjava2.0的神秘面纱(7)

前言 上一节里我们学习了只使用Observable如何去解决上下游流速不均衡的问题, 之所以学习这个是因为Observable还是有很多它使用的场景, 有些朋友自从听说了Flowable之后就觉得...
  • jungle_pig
  • jungle_pig
  • 2017年02月15日 08:36
  • 602

揭开木马的神秘面纱

前言    离冰河二的问世已经快一年了,大家对于木马这种远程控制软件也有了一定的认识,比如:他会改注册表,他会监听端口等等,和一年前几乎没有人懂得木马是什么东西相比,这是一个质的飞跃。但是,在这个连“...
  • liaxiaosan
  • liaxiaosan
  • 2005年10月03日 19:04
  • 701

零基础汇编揭开CPU的神秘面纱(堆栈、CPU保护模式)

汇编语言是所有编程语言中难度最大最不容易理解的一种编程语言,每个同学对它都是敬而远之。但是它对真正掌握计算核心原理、理解操作系统真正奥妙有着不可替代的作用。    本视频讲师应用深入浅出的语言来...
  • maochengtao
  • maochengtao
  • 2014年09月21日 21:50
  • 1370

一窥究竟,揭开SAP ERP的神秘面纱

 【IT168 ERP】“为人不识王荆山,识尽天下也枉然”,同样的,搞ERP而不知道SAP,同样会发出如此感叹。盖因SAP的体系之博,SAP底蕴之厚,SAP功能之强也,它的这些优势不是开发一两年的企业...
  • xinxihua
  • xinxihua
  • 2007年11月25日 21:53
  • 375

带你一步一步揭开Rxjava2.0的神秘面纱(4)

前言 在上一节中, 我们提到了Flowable 和Backpressure背压, 本来这一节的确是想讲这两个东西的,可是写到一半感觉还是差点火候,感觉时机未到, 因此,这里先来做个准备工作, 先带...
  • jungle_pig
  • jungle_pig
  • 2017年02月06日 16:58
  • 571

带你一步一步揭开Rxjava2.0的神秘面纱(8)

前言 在上一节中, 我们学习了FLowable的一些基本知识, 同时也挖了许多坑, 这一节就让我们来填坑吧. 正题 在上一节中最后我们有个例子, 当上游一次性发送128个事件的时候是没有任何问题...
  • jungle_pig
  • jungle_pig
  • 2017年02月17日 09:06
  • 1192

VC下揭开“特洛伊木马”的隐藏面纱

一、引言  “特洛伊木马”曾在网上造成很大恐慌,此类黑客程序通过欺骗手段在普通网络用户端安装木马的服务端,使用户的计算机在上网时留有后门,而黑客则可以通过这个后门对被感染的计算机随心所欲地进行监视、破...
  • fxpopboy
  • fxpopboy
  • 2007年01月02日 19:11
  • 443

揭开Wayland的面纱(二):Wayland应运而生

转自:http://imtx.me/archives/1574.html话说在上篇(揭开Wayland的面纱(一):X Window的前生今世)中我介绍了一些X Window的历史及发展,还没有提到W...
  • ChrisNiu1984
  • ChrisNiu1984
  • 2011年07月20日 17:12
  • 669

限制 TerichDB 的写速度

TerarkDB 在保持超高压缩率的同时还有非常高的读性能,为此付出的代价是“压缩速度”,如果在短时间内写入大量数据,会导致 TerarkDB 产生过多的 Frozen WritableSegment...
  • whinah
  • whinah
  • 2016年09月05日 18:07
  • 948

揭开AJAX神秘面纱

  原文地址:http://www.matrix.org.cn/articleView.shtml?id=44335本文通过一个简单的例子来说明如何在IE6中使用AJAX技术。在这例子中,客户端每隔十...
  • clchun4352
  • clchun4352
  • 2006年04月18日 12:03
  • 628
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:揭开神秘面纱,搜索引擎原理浅析[转]
举报原因:
原因补充:

(最多只允许输入30个字)