集成搜索引擎与元搜索引擎

搜 索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具。随着网络技术的飞速发展,搜索技术的日臻完善,中外搜索引擎已广为人们熟知和使用。任何搜索引擎的 设计,均有其特定的数据库索引范围、独特的功能和使用方法,以及预期的用户群指向。一种搜索引擎不可能满足所有人或一个人所有的检索需求。在某些情况下, 如文献普查、专题查询、新闻调查与朔源、软件及 MP3 下载地址搜索等等,人们往往需要使用多种搜索引擎,对搜索结果进行比较、筛选和相互印证。为解决逐一登陆各搜索引擎,并在各搜索引擎中分别多次输入同一检索请求(检索字串)等烦琐操作,集成搜索引擎和元搜索引擎应运而生。

搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎( Full Text Search Engine )、目录索引类搜索引擎( Search Index/Directory )和元搜索引擎( Meta Search Engine )。

集成搜索引擎和元搜索引擎尽可能地减少和优化了检索操作,实现了“一次检索输入,多引擎同时搜索”。

 

目前国内对集成搜索引擎和元搜索引擎的概念界定尚不清晰,二者多互称、通用。事实上,集成搜索引擎和元搜索引擎是两种不同类型的搜索工具,既有共同特点,又有明显差异。

 

一、集成搜索引擎

集成搜索引擎( AllinOne Search Page ),亦称为“多引擎同步检索系统 ”(如 http://www.bioon.com/multisearch.htm )是在一个 WWW 页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索,搜索结果由各搜索引擎分别以不同页面提交,其实质是利用网站链接技术形成的搜索引擎集合,而并非真正意义上的搜索引擎。

 

集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。但集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如 FLASHMP3 等)搜索引擎集成链接,深受特定用户群欢迎。在搜索引擎发展进程中,集成搜索引擎只是元搜索引擎的初级形态,以其方便、实用在网络搜索工具家族中占据一席之地。典型的集成搜索引擎有“搜索之家”( http://so.web165.com/ )、“网际瑞士军刀”( http://free.okey.net/~free/search1.htm )等。

 

二、元搜索引擎

元搜索引擎( Metasearch Engine ),是一种调用其它独立搜索引擎的引擎 , 亦称“搜索引擎之母( The mother of searce engines) ”。在这里,“元”( Meta )为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎(也称成员搜索引擎)的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”( source Engine ),或“搜索资源”( searcing resources ),整合、调用、控制和优化利用源搜索引擎的技术,称为“元搜索技术”( Meta-searching technique ),元搜索技术是元搜索引擎的核心。

 

元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理,串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。

 

元 搜索引擎是用户同时利用多引擎进行网络搜索的中介。检索时,元搜索引擎根据用户提交的检索请求,调用源搜索引擎进行搜索,对搜索结果进行汇集、筛选、删并 等优化处理后,以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等 方面,均有自己研发的特色元搜索技术支持。如提交检索请求时,根据源搜索引擎的特点和技术参数,指定优先顺序,并对检索时间、检索结果数量进行控制;作为 若干源搜索引擎的检索接口代理,元搜索引擎必须具有较强的字符和语法转换功能,使用户的检索请求为各具语法特点的不同的源搜索引擎所人知和接受; 而对检索结果的显示,不同的元搜索引擎有不同的处理技术,由于元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同,调用相同的源搜索引擎的不同元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。

 

一款理想的元搜索引擎应该具备以下特点和功能:第一,含盖较多的搜索资源,可随意选择和调用源搜索引擎;其次,具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、软件、 FTPMP3 、图像等)选择、返回结果数量控制、结果时段选择、过滤功能选择等;第三,强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自然语言检索等)和不同搜索引擎间检索语法规则、字符的转换功能(如对不支持“ NEAR ”算符的搜索引擎,可自动实现由“ NEAR ”向“ AND ”算符的转换等);第四,详尽全面的检索结果信息描述(如网页名称、 URL 、文摘、源搜索引擎、结果与用户检索需求的相关度等);第五,支持多种语言检索。

 

目 前运营的元搜索引擎各具特色,功能各有侧重,完全“理想”的尚不多见。一些元搜索引擎在某些方面较为优秀,而其它功能则欠缺或需改进:如大多元搜索引擎不 支持多语种,尤其是汉语检索;一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;部分元搜索 引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;大部分元搜索引擎仅支持调用 AltaVistaExciteGoTocomYahoo !、 InfoseekLycos 等常用的搜索引擎,一些大型搜索引擎如 NorthernLightHotBot 等 被排除在外,人为地限制了搜索资源的利用;在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被 忽视,影响检索结果的全面性。元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约:一方面,源搜索引擎的各具特色的强大功能在元搜索引擎中受到限制而 不能充分体现,而另一方面,任何一种元搜索技术都不能发掘和利用源搜索引擎的全部功能。

 

1995 年华盛顿大学硕士生 Eric Selberg Oren Etzioni 推出第一个元搜索引擎 ---Metacrawler 以 来,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。尽管元搜索引擎存在着这样那样的功能局限,但其以含盖较多的搜索资源,能 够在尽可能短的时间内提供相对全面、准确的检索结果等诸多优异功能受到用户的青睐,已渐成为一种不可或缺的极具潜力的网络检索工具。

 

 

 

著名元搜索引擎

1InfoGrid http://www.infogrid.com/

提供与主要搜索网站的直接连结和目录检索,具有强大的元搜索和新闻搜索功能。

2Infonetware RealTerm Search http://www.infonetware.com/

原为检验网络分类技术而设计。它以元搜索引擎知名,但具有强大的对搜索结果进行主题分类的功能。与众不同的是,用户可选择不同的主题,并得到来自所有主题搜索结果,而不是仅仅把搜索结果限制在一个主题范围之内。

3Ithaki http://www.ithaki.net/dir.html

支持包括中文在内的 14 种语言检索。

4Ixquick http://www.ixquick.com/

可搜索网站、 MP3 、新闻、图象等多种网络资源。

5ProFusion ( http://www.profusion.com)

拥有智能化的搜 索方案,提供诸如搜索引擎选择、检索类型、结果显示、摘要选项、链接检查等较多的检索选项,支持个性化设置,可以选择三个最好的搜索引擎、或三个最快的搜 索引擎、或全部搜索引擎、或手工选择任意几个搜索引擎来进行搜索。自动实现符合特殊检索语法要求的转换,如在调用 ExciteInfoSeekWebCrawler 时将“ NEAR ”转换成“ AND ”,在调用 GoToYahoo 时将“ NOT ”删除等。原为堪萨斯州大学所有, 2000 年四月被 Intelliseek 搜索公司购买。

6Mamma http://www.mamma.com

1996 年面世,自称为“搜索引擎之母”的并行元搜索引擎,可同时调用 7 个最常用的独立搜索引擎,并且可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友好,检索选项丰富,主要包括:可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。另外, Mamma 支持常用检索语法在不同搜索引擎中的转换,还提供了专门检索页面文件标题的特殊检索服务,以及通过 Email 传输检索结果的特色功能。检索结果以相关性排序,内容包括网页名称、 URL 、文摘、源搜索引擎。  

7MetaCrawler http://www.metacrawler.com

1995 年由华盛顿大学推出, 1997 年被 InfoSpace 购买。支持调用 12 个独立搜索引擎,提供涵盖近 20 个 主题的目录检索服务。其检索特性非常丰富,包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。其中,高级检索模式可实现:搜索引擎 的选择调用,基于域名、地区或国家的检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据 (包括相关度、域名、源搜索引擎)等。以上内容均可作为定制检索的个性化选项并予以保存。另外,检索结果中包括一个以 1000 为最大值的相关度指标。

8ByteSearch http://www.bytesearch.com

搜索速度快,可检索资源丰富,搜索范围包括 Web 、城市信息、公司名录、域名、 FTP 网站、多媒体、新闻组、包裹跟踪等,并提供新闻浏览、 URL 提交、最新的 20 个检索浏览、联机商店等内容方面的服务。支持完全匹配( All )、部分匹配( Any )、短语检索( Phrase )等特性检索功能,没有搜索引擎列表,不能控制源搜索引擎的选择。

9SavvySearch ( http://savvy.cs.colostate.edu:2000/)

支持二十种语言 ( 不包括中文 ) ,可调用全部或任意几个搜索引擎,可选择每个搜索引擎返回结果的数目,可进行目录检索。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值