深入浅出元搜索引擎

转载 2005年05月01日 02:07:00

一.引言

  随着网上信息资源的膨胀发展,传统搜索引擎在搜索引擎的查全率和查准率方面很难满足用户的要求。为了查询相关的内容,用户经常是同时使用多个搜索引擎查询相同内容,然後在各个搜索引擎的结果中综合出最适合自己的内容。这对于熟练的检索人员而言,可能不是什么难题,但是对于一般的网上信息搜集者来讲,肯定比较困难。因此如何准确选择搜索引擎、如何减轻学习与操作负担、如何有效利用多个搜索引擎的"集成"资源与检索能力,就成为制约网络信息检索技术进一步优化和发展的重要问题。正是面对这个挑战,检索工具开发者设计了元搜索引擎(Meta-SearchEngine)。下面我们来一起学习和了解元搜索引擎的原理和特点,然后介绍了常用的元搜索引擎用法和特点。

  二.什么是元搜索引擎

  元搜索引擎,通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。

  一个真正的元搜索引擎由三部分组成,即:检索请求提交机制、检索接口代理机制、检索结果显示机制。"请求提交"负责实现用户"个性化"的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。"接口代理"负责将用户的检索请求"翻译"成满足不同搜索引擎"本地化"要求的格式。"结果显示"负责所有源搜索引擎检索结果的去重、合并、输出处理等元搜索引擎的出现,对于那些需要连续地使用不同的搜索引擎重复相同的检索的人来说,是一个福音。使用元搜索引擎同时对几个搜索引擎进行检索,获得分级编排的检索结果。

  三.元搜索引擎的原理

  我们可将元搜索引擎看成具有双层客户机/服务器结构的系统,用户向元搜索引擎发出检索请求。元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求;搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户。当然,某些元搜索引擎具有略微不同的机制。
四.元搜索引擎的分类

 

  在可以检索的目标搜索引擎、检索提问的处理方式以及如何编译和显示结果方面,元搜索引擎有着很大的差异。有些元引擎一个接一个的搜索目标搜索引擎,另一些则同时进行搜索。有些搜索引擎将检索提问转变成目标搜索引擎的提问语言,而有一些则原封不动的发送给目标引擎。

  按功能划分,元搜索引擎包括多线索式搜索引擎和All-in-One式搜索引擎;按运行方式的差异可分为在线搜索引擎和桌面搜索引擎。

  1、多线索式元搜索引擎

  多线索式元搜索引擎,指利用统一的检索界面,实现对多个独立搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具。Metacrawler(http://www.metacrawler.com)、Savvysearch(http://www.savysearch.com)、Profusion(http://www.profusion.com)等都属于多线索式元搜索引擎。这类元搜索引擎一般具有以下特征:

  统一检索界面:元搜索引擎提供统一界面,提供对各搜索引擎特点介绍和选择机制,但所有目标搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一的全局外部检索模式,用户通过这个全局界面实现对多个或任意一个搜索引擎的检索。

  检索指令转换:在具有唯一全局外部检索模式情况下,系统可提供统一的全局指令语言,并自动地实现元搜索引擎指令与其目标搜索引擎指令的转换,用户使用同一指令语言检索不同的搜索引擎的索引数据库。

  统一结果集的组织与显示:元搜索引擎提供全局组织器,对各目标搜索引擎返回的结果进行处理,形成全局结果集,并以统一格式显示,主要涉及数据格式转换、去重、统一排序等。

  2、All-in-one方式

  All-in-One方式,是指元搜索引擎界面以任意顺序或分类罗列多个(一般都是数十个)搜索引擎,元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制。用户可通过这类元搜索引擎了解有关的搜索引擎、联入所选择的搜索引擎。但元搜索引擎没有统一的全局外部模式,而是以各搜索引擎的检索模式和数据格式直接面对用户。例如 All-in-one元搜索引擎(www.albany.net)。这种 All-in-one方式的元搜索引擎确切地说只是搜索引擎的罗列,它们具有以下特点:

  仅仅提供一个简单的界面来帮助用户选择和使用各搜索引擎;只能选择一个搜索引擎进行检索;对各目标摸索引擎检索界面的复制可能是部分的或全部的;直接利用所选搜索引擎的显示格式呈送给用启。
3、桌面元搜索引擎

 

  以上各类元搜索引擎都是通过网上调用方式在线使用,还有另外一类元搜索引擎可直接在用户计算机上运行,相当于用户自己拥有一个元摸索引擎,称之为桌面元搜索引擎。这些桌面元搜索引擎可从网络上下载。桌面元搜索引擎是一个包括多个成员搜索引擎的完整系统,它们往往允许用户自定义检索式运行的搜索引擎集合(例如一个或全部目标搜索引擎),甚至可由用户添加新的搜索引擎,例如WebCompass(http://www.qdeck..com/products/Webcompass)。这些桌面元摸索引擎不仅可以实现对多个搜索引擎的并行检索,而且也能提供重要的后期处理功能。例如用户定义结果排序方式、删除重复记录等功能。

  4.元搜索引擎与传统搜索引擎的区别

  搜索引擎与元摸索引擎的主要区别在于搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多地是提供统一联接界面(或进一步地提供统一检索方式和结果整理),形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作。元搜索引擎中各独立搜索引擎被称为"目标搜索引擎",或者"成员搜索引擎",它们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出。不过,有些元搜索引擎给出的全局外部模式不够完善。

  5.常用元搜索引擎介绍

  (1) 万纬搜索引擎

  网址:http://www.widewaysearch.com

  万伟搜索引擎是最有名的中文元搜索引擎(笔者认为也是最好的中文元搜索引擎)。万纬中文集成搜索引擎包括了8个英文搜索引擎如AltaVista、Argos、directHit、Fast、Google、hotbot、northernLight、Yahoo和12个中文搜索引擎如网典、新浪、雅虎(中文)、搜狐、搜索客、天网、悠游搜索、好多、找到啦、欧姆龙、飞华、Excite(中文)。用户可根据需要自由选择其中最多6个引擎进行同步搜索,搜索结果可按相关度、时间、域名和引擎分类。

  (2) Mamma(英文元搜索引擎)

  网址:http://www.mamma.com
说到元搜索引擎不能不说Mamma,  Mamma自称为"搜索引擎之母"的并行元搜索引擎,可同时调用7个最常用的独立搜索引擎,并且可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友好,检索选项丰富,主要包括:可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。另外,Mamma支持常用检索语法在不同搜索引擎中的转换,还提供了专门检索页面文件标题的特殊检索服务,以及通过E-mail传输检索结果的特色功能。检索结果以相关性排序,内容包括网页名称、URL、文摘、源搜索引擎。
(3) Profusion(英文搜索引擎)

 

  网址:http://www.profusion.com

  Profusion是一个优秀的智能型元搜索引擎,是2000年元搜索引擎9238推荐奖获得者。Profusion在其检索界面上提供了尽可能多的检索选项,包括:检索类型(简单、All、Any、布尔、短语)、结果显示(1~10、1~20等)、摘要选项、链接检查、搜索引擎选择(根据检索需求动态的提供最好的3个、最快的3个或全部、自定义等),可搜索资源范围涵盖娱乐、健康、体育、MP3、Usenet等,并支持个性化设置,自动实现符合特殊检索语法要求的转换,如在调用Excite、InfoSeek、WebCrawler时将"NEAR"转换成"AND",在调用GoTo、Yahoo时将"NOT"删除等。另外,Profusion提供了比较丰富的检索技巧和FAQ内容。笔者在申请美国大学奖学金时用这个搜索引擎查询相关内容所得结果都比较满意。

  (4) C4(英文搜索引擎)

  网址:http://www.c4.com/

  C4搜索引擎是2000年元搜索引擎9238推荐小奖获得者。并行元搜索引擎,可对网页,健康,商业,财经新闻,科技新闻,标题新闻,家庭工作,mp3,体育,公司名录和新闻组共11大类53个搜索引擎发送搜索请求。支持AND,OR,NOT和短语搜索,象askjeeves一样支持自然语言搜索,但不同的是没有自己的标准问答库,搜索结果都来自网上。返回结果每页显示可从5到50条自选,默认20条。搜索结果以相关性排序,每条结果旁都有来源搜索引擎的标志,如果对哪个搜索引擎满意,可以点击"MORE FROM XXXX"直接用那个搜索引擎搜索。注册后可保存个性化设置,在任何地方登录后均可进行个性化搜索,还提供在线收藏夹,可以保存复杂或常用的搜索请求。提供了有多达5种很酷截界面的搜索功能代码免费下载安装在用户主页上。

  其他常用的英文元搜索引擎还有Ask Jeeves(http://www.askjeeves.com/)ByteSearch (http://www.bytesearch.com/ )MetaCrawler(http://www.metacrawler.com/ )等,这里不一一介绍,留给读者自己去体会。

[架构师之路] 深入浅出搜索引擎 系列

集合了《架构师之路》公众号,截止到20171202的关于搜索架构设计和实现的文章。 文章浅显易懂,从最核心的 索引建立、结果合并、增量更新、重复检测,到整体架构设计都有。虽然细节不多,但是思路很清晰数...

利用 Html 元标记控制搜索引擎蜘蛛,meta name=”robots” 详解

快照不被百度缓存: ? 1 所有搜索引擎,抓取这个页面、爬行链接、禁止快照: ? ...
  • aerchi
  • aerchi
  • 2014年04月29日 15:59
  • 1750

深入浅出Java Annotation(元注解和自定义注解)

http://josh-persistence.iteye.com/blog/2226493 一、基本概述        Annontation是Java5开始引入的新特征...
  • hotdust
  • hotdust
  • 2016年11月04日 10:07
  • 121

个性化智能元搜索引擎模型研究

  • 2012年05月12日 18:23
  • 1.55MB
  • 下载

深入浅出设计模式笔记之九:享元模式

一、引子 让我们先来复习下java中String类型的特性:String类型的对象一旦被创造就不可改变;当两个String对象所包含的内容相同的时候,JVM只创建一个String对象对应这两个不同的...

元搜索引擎,VB源程序

  • 2008年08月26日 10:09
  • 214KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深入浅出元搜索引擎
举报原因:
原因补充:

(最多只允许输入30个字)