网络搜索引擎原理简介 [转]

转载 2005年04月25日 12:57:00

据中国互联网络信息中心统计,目前搜索引擎是仅次于电子邮件的第二大Internet的应用。搜索引擎技术的研究与应用逾来逾广,正成为计算机工业界和学术界争相研究和开发的对象。

搜索引擎虽然品种繁多、功能不一,但是它们的总体结构和基本的工作原理都是一样的。

每个搜索引擎都有三个部分组成: (1)在Internet上采集信息的"机器人";(2)对采集到的信息进行索引并建立索引库的索引器;(3)完成用户提交查询请求的网页检索器。
图1.1 搜索引擎总体结构图
1、"机器人"
  "机器人"实际上是一些基于Web的程序,通过请求Web站点上的HTML网页来对采集该HTML网页,它遍历指定范围内的整个Web空间,不断从一个网页转到另一个网页,从一个站点移动到另一个站点,将采集到的网页添加到网页数据库中。"机器人"每遇到一个新的网页,都要搜索它内部的所有链接,所以从理论上讲,如果为"机器人"建立一个适当的初始网页集,从这个初始网页集出发,遍历所有的链接,"机器人"将能够采集到整个Web空间的网页。
2、索引器
  索引器负责将"机器人"在Web空间采集到的信息建立索引并存放在索引数据库中,索引数据库可以采用通用的大型数据库,如ORACLE、Sybase等,也可以自己定义文件格式进行存放。为了保证索引数据库信息与Web内容的同步,索引数据库必须定时更新,更新频率决定了搜索结果的及时性,索引数据库更新是通过启动"机器人"对Web空间重新搜索来实现的。
3、网页检索器
  当用户使用搜索引擎查找信息时,网页检索器接收用户提交的查询条件,并完成对用户查询请求的响应。网页检索器是一个在Web服务器上运行的CGI程序,它首先接收用户提交的查询条件,根据查询条件对索引库进行查找并将查询到的结果返回给用户。
  有的系统在返回结果之前对网页的相关度进行了计算和评估,并根据相关度进行排序,将相关度大的放在前面,相关度小的放在后面;也有的系统在用户查询之前已经计算了各个网页的网页等级(Page Rank),返回查询结果时将网页等级大的放在前面,网页等级小的放在后面。典型的如大名鼎鼎的Google(http://www.google.com)就是采取这种策略,它的PageRank方法还获得国际专利,因为PageRank的客观性,从而使得由它搜索出来的结果比较公正,不会因为哪家公司使用伎俩,而导致它的网页排在结果的前边,而是根据计算出来的等级值,排在相应的位置。
  国内目前做得最为出色的应该首推百度(www.baidu.com),在中文信息搜索方面,其速度不亚于google,虽然其信息覆盖没有达到google那样的规模。(注:google最早由美国斯坦福大学计算机科学系的几名博士生研制出来,目前的信息量约20亿7千万个Web页面,支持世界上大多数流行语言,在这方面,百度颇有不及)。

网络搜索引擎原理简介

据中国互联网络信息中心统计,目前搜索引擎是仅次于电子邮件的第二大Internet的应用。搜索引擎技术的研究与应用逾来逾广,正成为计算机工业界和学术界争相研究和开发的对象。搜索引擎虽然品种繁多、功能不一...
  • lyamlf_net
  • lyamlf_net
  • 2005年04月09日 22:27
  • 2672

搜索引擎的基本原理及构成

【说明】:本文转自 http://blog.chinaunix.net/xmlrpc.php?r=blog/article&uid=23480159&id=2421718  引言 首先...
  • JXH_123
  • JXH_123
  • 2015年05月14日 20:35
  • 1238

网络搜索引擎简介

网络搜索引擎简介一、传统信息检索回顾传统信息检索文档集的搜索有三种基本的计算机辅助技术:布尔模型、向量空间模型和概率模型。这些模型发展与20世纪60年代,直到2000年6月,便存在3500种不同的搜索...
  • gugugujiawei
  • gugugujiawei
  • 2015年04月21日 13:34
  • 875

搜索引擎的原理简介

一、搜索引擎的原理简介1.一个抓网络页面程序  把www中的各网站的内容抓到本地2.一个文件解析工具  把抓下来的html、doc等源文件处理为更精确的格式文本3.一个全文检索、分词、数据挖掘,解析文...
  • kfanning
  • kfanning
  • 2010年06月01日 23:12
  • 428

搜索引擎原理简介

搜索引擎可以分为4个系统:下载系统、分析系统、索引系统和查询系统。前三个是“离线系统”,最后一个是“在线系统”。    下载系统负责从互联网上下载各种类型的网页,并且保持对互联网变化同步。首先是...
  • csdwb
  • csdwb
  • 2011年12月18日 18:58
  • 296

搜索引擎的体系架构

参考文献:http://www.stlchina.org/twiki/bin/view.pl/Main/SEStructSys搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索...
  • wqf363
  • wqf363
  • 2006年12月19日 12:20
  • 2347

串口转TCPIP的TCP工作模式选择

原文网址:http://www.zlmcu.com/document/tcp_work_mode.html 本文介绍在串口转TCP/IP中如何使用各种TCP工作模式,根据不同的应...
  • u013183444
  • u013183444
  • 2013年12月17日 10:33
  • 1861

搜索引擎爬虫工作原理-大揭秘(新手推荐看下)

搜索引擎的处理对象是互联网网页,日前网页数量以百亿计,所以搜索引擎首先面临的问题就是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。 网络爬虫即...
  • haolyj98
  • haolyj98
  • 2014年05月19日 14:54
  • 1168

深度解析搜索引擎的原理结构

【说明】本文转自:http://www.mahaixiang.cn/seoyjy/246.html  深度解析搜索引擎的原理结构 对于我们这些做网站优化的来说,如果不懂搜索引擎的原理就来...
  • JXH_123
  • JXH_123
  • 2015年05月14日 21:45
  • 1293

百度搜索引擎工作原理

关于百度以及其它搜索引擎的工作原理,其实大家已经讨论过很多,但随着科技的进步、互联网业的发展,各家搜索引擎都发生着巨大的变化,并且这些变化都是飞快的。我们设计这个章节的目的,除了从官方的角度发出一些声...
  • qizhiqq
  • qizhiqq
  • 2017年05月12日 17:24
  • 954
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:网络搜索引擎原理简介 [转]
举报原因:
原因补充:

(最多只允许输入30个字)