搜索引擎技术深度研究

随着网络科学技术的高速发展,人们对网络搜索引擎的依赖越来越强,尤其是在当今网络资源丰富,网络信息需求量日益上升的二十一世纪,搜索技术占据了互联网的一个非常重要的制高点。现在人们经常用搜索引擎来搜索多媒体资料、最新资讯和地图等各种资料。

  第一、 搜索引擎的基本原理

  搜索引擎是一个能够获得网站网页资料,建立数据库并提供查询的系统。

  1.1搜索引擎的结构

  网页搜集就是通过网络蜘蛛去网页上爬行,并且沿着每个网页中的链接去爬行其他网页,最终可以爬行到很多网页,并将这些网页压缩处理,存储到知识库当中。网络蜘蛛程序会不断的对整个网络进行爬行,以保证信息的及时性和有效性。

  预处理是对搜集到的网页进行链接分析,网页重要程度计算以及关键字提取,建立一个索引数据库,这个数据库的体系结构必须利于搜索,而且包含的信息要尽量全面。

  服务指的是为用户提供服务,当用户输入关键字后,按照关键字在索引数据库中快速的找到相关的信息,返回给用户。

  1.2搜索引擎的分类

  搜索引擎可以分为三类:全文检索搜索引擎、目录搜索引擎、元搜索引擎。

  全文搜索引擎是通过网络蜘蛛去爬行各个网页,将其信息提取出来并存入一个数据库中,当用户使用时对用户输入的关键字进行匹配,并将信息返回给用户。这是使用最多的一种搜索引擎,google,baidu就属于这种类型。

  目录搜索引擎是将搜索的资源按照一定的方式进行分类,最终建成一个很大的目录系统,用户查询时可以逐层打开浏览目录,最终找到想要的信息,目录搜索引擎严格上来说并不是一个真正的搜索引擎。我们使用的yahoo,新浪就是属于这种。

  元搜索引擎是一种调用其他搜索引擎的引擎,它可以涵盖更多的资源,提供比较全面的服务。使用比较多的有Dogpile,Vivisimo以及国内的搜星。

  上述三种不同的搜索引擎分别可以用于不同的场合,有着自己的优缺点。全文搜索引擎一般用于综合性的搜索,它的优点是信息量大,更新及时,不需要人工干预,缺点是处理的信息量大,信息筛选困难。目录搜索引擎大多是面向网站,提供目录浏览服务和直接检索服务,它的优点是人工的干预有利于提高信息搜索的准确度,缺点是需要人工介入,维护成本高,更新慢,信息量小。元搜索引擎由于可以查询多个其他的搜索引擎,所以特别适合于要求查全率高的场合,但是目前不同的搜索引擎之间,建立索引数据库和执行提问检索的具体方法或规则并不相同,大大影响了元搜索工具的检索效果。

  第二、搜索引擎实现的几个关键技术

  2.1 网络蜘蛛

  网络蜘蛛的可以采用一下几种方式实现:

  (1) 基于广度优先。基于广度优先的算法按照所遇到的链接的先后顺序进行访问。它是所有网络蜘蛛中是最简单的一种策略。

  (2) 基于深度优先。基于深度优先的思想根据选定的条件计算网页与搜索主题之间的相似度,选择相似度最高的链接进行搜索,在相似度的计算过程中,通常采用余弦进行计算。

  (3) 基于网页评级。基于网页评级是利用网页评级并结合内容对搜索到的文档集合进行评级,利用计算得到的结果从中挑选评级最高的链接作为下一个搜索的对象。

  (4) InfoSpider。InfoSpider是利用进化的关键词表和神经网络方法,对与主题相关的网页进行相似度的计算,根据计算的结果决定下一个将要搜索的对象,同时计算新获得的文档与主题的相关程度以及在获取文档过程中所花费的代价修正代理的能量,并根据其能量级别决定对该代理进行撤消、再生与生存。

  2.2网页重要性的评判

  对网页重要性的评判方法主要有两种,一种是基于链接的

  方式,另一种是基于相似度的方法。

  基于链接方式的计算的依据链接信息与被链接的对象必然存在某种可信的映射关系。在应用过程中经常用到以下内容:

  (1) 入度:包含有链接目标指向本网页的网页数量;

  (2) 出度:由该网页链接出去的网页链接数量;

  (3) 网页评级(Page Rank):指在任意时刻用户访问该网页的可能性。

  这种方法得到广泛的应用,并且十分有效。

  基于相似度的计算,一般都利用向量空间模型将查询串与文本转化为向量,然后评估文本与查询串之间的相似度。

  2.3搜索引擎硬件系统的建立

  搜索引擎的硬件系统是整个系统的支柱,为了提供更快的查询速度,硬件系统一般采用分布式的结构,Google的服务器就分布在全球各地,还采用并行技术,加快执行速率。另外,索引数据库的硬件设计也很重要,对于提高数据访问速度非常关键。

  第三、搜索引擎反展趋势

  未来的搜索引擎有着一下的特点:

  (1) 能够收集到互联网上几乎所有的信息;

  (2) 可以屏蔽一些非法的信息;

  (3) 查全率和查准率的提高

  (4) 不仅能够识别文本检索词,还能构识别图像、音频、视频等等;

  (5) 信息更新更快;

  (6) 跨库查询方便简介;

  (7) 交互界面人性化、个性化;

  (8) 可以实现智能搜索。

  (9) 移动搜索将会取得长足的发展。

  第四、总 结

  本文对搜索引擎进行了详细的讲解,对他的关键技术的实现进行了分析,并且提出了以后的发展趋势,随着技术的发展,人们需求的提高,搜索引擎将会别的越来越智能,越来越高效实用。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值