网络搜索引擎原理简介 [转]

转载 2005年04月25日 12:57:00

据中国互联网络信息中心统计,目前搜索引擎是仅次于电子邮件的第二大Internet的应用。搜索引擎技术的研究与应用逾来逾广,正成为计算机工业界和学术界争相研究和开发的对象。

搜索引擎虽然品种繁多、功能不一,但是它们的总体结构和基本的工作原理都是一样的。

每个搜索引擎都有三个部分组成: (1)在Internet上采集信息的"机器人";(2)对采集到的信息进行索引并建立索引库的索引器;(3)完成用户提交查询请求的网页检索器。
图1.1 搜索引擎总体结构图
1、"机器人"
  "机器人"实际上是一些基于Web的程序,通过请求Web站点上的HTML网页来对采集该HTML网页,它遍历指定范围内的整个Web空间,不断从一个网页转到另一个网页,从一个站点移动到另一个站点,将采集到的网页添加到网页数据库中。"机器人"每遇到一个新的网页,都要搜索它内部的所有链接,所以从理论上讲,如果为"机器人"建立一个适当的初始网页集,从这个初始网页集出发,遍历所有的链接,"机器人"将能够采集到整个Web空间的网页。
2、索引器
  索引器负责将"机器人"在Web空间采集到的信息建立索引并存放在索引数据库中,索引数据库可以采用通用的大型数据库,如ORACLE、Sybase等,也可以自己定义文件格式进行存放。为了保证索引数据库信息与Web内容的同步,索引数据库必须定时更新,更新频率决定了搜索结果的及时性,索引数据库更新是通过启动"机器人"对Web空间重新搜索来实现的。
3、网页检索器
  当用户使用搜索引擎查找信息时,网页检索器接收用户提交的查询条件,并完成对用户查询请求的响应。网页检索器是一个在Web服务器上运行的CGI程序,它首先接收用户提交的查询条件,根据查询条件对索引库进行查找并将查询到的结果返回给用户。
  有的系统在返回结果之前对网页的相关度进行了计算和评估,并根据相关度进行排序,将相关度大的放在前面,相关度小的放在后面;也有的系统在用户查询之前已经计算了各个网页的网页等级(Page Rank),返回查询结果时将网页等级大的放在前面,网页等级小的放在后面。典型的如大名鼎鼎的Google(http://www.google.com)就是采取这种策略,它的PageRank方法还获得国际专利,因为PageRank的客观性,从而使得由它搜索出来的结果比较公正,不会因为哪家公司使用伎俩,而导致它的网页排在结果的前边,而是根据计算出来的等级值,排在相应的位置。
  国内目前做得最为出色的应该首推百度(www.baidu.com),在中文信息搜索方面,其速度不亚于google,虽然其信息覆盖没有达到google那样的规模。(注:google最早由美国斯坦福大学计算机科学系的几名博士生研制出来,目前的信息量约20亿7千万个Web页面,支持世界上大多数流行语言,在这方面,百度颇有不及)。

搜索引擎原理简介

搜索引擎可以分为4个系统:下载系统、分析系统、索引系统和查询系统。前三个是“离线系统”,最后一个是“在线系统”。    下载系统负责从互联网上下载各种类型的网页,并且保持对互联网变化同步。首先是...
  • csdwb
  • csdwb
  • 2011年12月18日 18:58
  • 282

搜索引擎原理简介和简单实现

搜索引擎原理简介和简单实现搜索引擎两个模块 1 数据收集 2 信息提取目录搜索引擎原理简介和简单实现 目录 数据收集 信息提取 Demo代码 参考书籍数据收集数据收集使用爬虫算法。将爬虫素搜索的所有...

网络蜘蛛及搜索引擎原理

  • 2011年04月13日 16:47
  • 29KB
  • 下载

网络搜索引擎---网络爬虫之原理分析和探讨

转自: http://www.360doc.com/content/10/0519/09/1007797_28335641.shtml 成搜索引擎从 1.网页下载, 2.文本分析, 3.索引生...
  • ztbzg
  • ztbzg
  • 2012年02月26日 23:52
  • 173

Doclist压缩方法简介 [转者注:搜索引擎设计的倒排索引设计中文档列表的存储压缩]

本文转自:  http://www.searchtb.com/2011/07/doclist-compress.html 本文是作者在学习doclist压缩时的一点总结,希望...

百度、谷歌搜索引擎原理(转)

第一节 搜索引擎原理 1、基本概念      来源于中文wiki百科的解释:(网络)搜索引擎指自动从互联网搜集信息,经过一定整理以后,提供给用户进行查询的系统。      来源于英文wiki百科的解释...

【转】搜索引擎/网络蜘蛛程序源代码

国外开发的相关程序1、Nutch官方网站 http://www.nutch.org/中文站点 http://www.nutchchina.com/最新版本:Nutch 0.7.2 ReleasedNu...

转:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎  网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:网络搜索引擎原理简介 [转]
举报原因:
原因补充:

(最多只允许输入30个字)