第三代搜索引擎和p2p【转】

原创 2005年04月27日 22:50:00

第二代搜索引擎虽然比第一代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索。然而,随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。前期被大肆宣传为“使用简便易用,搜索结果丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频、音频等多媒体信息的检索,现在仍然是无法突破的难题。
  一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自动排序软件Spiders蜘蛛程序,只能接受这种格式的网页。这意味着,在企业内部的局域网上,任何没有使用HTML格式的信息将无法被外部的搜索引擎查到。这就是为什么像PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期的“沉没”在信息的海底中。
  如何解决这些难题已成为第三代搜索引擎探索的方向。一个好的搜索引擎不再仅凭借数据库大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何从庞大的资料库中精确地找到正确的资料,被公认为是下一代搜索技术的竞争要点。比如在某搜索引擎中查询“旅游”这个词,返回的信息超过一百万条,假定一个人3秒钟查看一个网页,就算只查看其中10%的网页,一刻不停地看下去也需要十多个小时。
  好在搜索引擎技术发展迅速,诸如智能化、个性化特色的新型引擎与过去的搜索引擎相比有了很大的区别。智能搜索可以通过对搜索内容相关性的自动学习,来提高搜索结果的准确度。不过,现在还没有一种可行的方式真正实现智能化,很难将所需信息一定显示在前两三页的搜索结果之中。
  另一个颇受瞩目的搜索技术就是将P2P技术应用到网页的检索中。通过共享所有硬盘上的文件、目录乃至整个硬盘,用户搜索时无需通过Web服务器,不受信息文档格式的限制,即可达到传统目录式搜索引擎无可比拟的深度(传统引擎只能达到20%~30%的网络资源)。美国一家新兴搜索引擎设计公司i5 Digital在两年前已正式推出了依据对等搜索理念的商业性搜索引擎Pandango(www.pandango.com),但至今仍未进入主流搜索引擎阵容的事实,则说明P2P搜索目前也只能称为是未来的技术。
   Google拥有一个开放性数据库,内含一百多个未来需要实施的项目,这些项目由五十位计算机科学博士负责推进。2002年6月,Google专门成立了“实验室”,以展示他们在互联网搜索领域里最新研究的技术,并发布在互联网(labs.google.com)上供公众试用,广泛收集用户的反馈意见。实验室里已经展示的项目,包括键盘检索、语音检索等等。
  “一个搜索引擎并不是说某一方面好就能受大众喜欢,必须方方面面做到了才行”,“现在搜索还不能完全满足人们的需求,因为需求太多样化,很难一一满足”。这也是主流搜索引擎目前更重视在细节上下功夫的原因。无论如何,最终的搜索引擎将是智能化的,能够理解世界上的所有事物。而现在,主流搜索技术把注意力集中在提升自身搜索引擎质量、扩展应用范围,比如支持图片检索、PDA等移动手持设备的检索,这些都将成为下一代技术实现过程中必不可少的步骤。

“P2P搜索这个理念我最早是1997年底在Infoseek听到的,当时的Infoseek里已经有人提出并开始考虑这种搜索技术了”,李彦宏表示,“各个网站上都有一个自己的小的搜索引擎,大家相互之间可以进行沟通,如果这个引擎查不到,可以通过其他的引擎查,就是这样的一个概念。但是到目前为止,它离实际的应用还差得非常远,主要是违反了关键性指标中有关速度的问题。由于有很多这种小的相互独立又相互链接的引擎,其速度与集中式管理的搜索引擎相比肯定会差很多”。

  商业应用与学术研究之间总会存在一定的距离,但这并不是表示商业界不重视对技术的追求,尤其是像Google这些已经处于该领域金字塔塔尖的公司。Google拥有一个开放性数据库,内含一百多个未来需要实施的项目,这些项目由五十位计算机科学博士负责推进。2002年6月,Google专门成立了“实验室”,以展示他们在互联网搜索领域里最新研究的技术,并发布在互联网(labs.google.com)上供公众试用,广泛收集用户的反馈意见。实验室里已经展示的项目,包括键盘检索、语音检索等等。

  或许有些人会认为,这些所谓的实验项目似乎看不出搜索引擎技术将在观念上进行大的转变,实际上,搜索引擎技术 在8年多的时间里一直是以一个渐变的过程在发展。“一个搜索引擎并不是说某一方面好就能受大众喜欢,必须方方面面做到了才行”,李彦宏这么认为,“现在搜索还不能完全满足人们的需求,因为需求太多样化,很难一一满足”。这也是主流搜索引擎目前更重视在细节上下功夫的原因。

  无论如何,包括Google的佩杰在内的搜索技术领域的领先者都认为,最终的搜索引擎将是智能化的,能够理解世界上的所有事物。佩杰还是Web服务技术领域积极的参与者,他正在尝试将Web服务技术应用到搜索当中,以解决跨平台、多格式的信息检索。而我们现在所见到的,主流搜索技术把注意力集中在提升自身搜索引擎质量、扩展应用范围,比如支持图片检索、PDA等移动手持设备的检索,这些都将成为下一代技术实现过程中必不可少的步骤。

【转自:http://www.chinabyte.net

第三代搜索引擎初探:智能化、个性化

搜索引擎是伴随着互联网的发展而不断发展的,由于互联网已经成为人们学习工作和生活中不可缺少的平台,几乎每一个上网的人都会使用搜索引擎,围绕搜索已经形成一个重要的产业链,有些媒体甚至造出了“搜索经济”这个...
  • kflwz
  • kflwz
  • 2006年07月26日 17:10
  • 2267

第三代搜索引擎技术与P2P

第三代搜索引擎技术与P2P   第二代搜索引擎虽然比第一代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索。然而,随着Internet的强势发展,网上庞大的数...
  • JesusIsGod
  • JesusIsGod
  • 2007年07月27日 07:57
  • 499

第三代搜索引擎技术与P2P

第三代搜索引擎技术与P2P   第二代搜索引擎虽然比第一代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索。然而,随着Internet的强势发展,网上庞大的数...
  • zvane
  • zvane
  • 2006年11月23日 22:14
  • 719

第三代搜索引擎lexxe

 最近在网上看到关于lexxe的介绍.    澳大利亚华人、计算语言学博士乔鸿亮最近发明了第三代搜索引擎lexxe,其特征是“语言计算”。    “语言计算”(linguisticcom-puting...
  • yujun00
  • yujun00
  • 2005年10月25日 12:36
  • 2172

第三代搜索引擎何去何从?

这是偶在CSDN上看到的一篇有关搜索引擎的文章,原文地址:http://news.csdn.net/news/newstopic/9/9719.shtml一度被冷落的搜索引擎终于走到了前台,尽管如此,...
  • husn
  • husn
  • 2005年08月17日 02:17
  • 1074

浅析C/S、B/S与P2P架构

一、C/S架构       C/S 架构是一种典型的两层架构,全称是Client/Server,即客户端/服务器端架构,其客户端包含一个或多个在用户的电脑上运行的程序,而服务器端有两种,一种是数据库服...
  • Enchanted_ZhouH
  • Enchanted_ZhouH
  • 2017年07月25日 18:56
  • 1006

P2P软件正式进入第三代

2004-10-09 09:19 来源:天极网 作者:petery编译 StreamCast Networks周三要发布最新版的Morpheus文件交换软件,所展示的新搜索技术可能大...
  • zi_jun
  • zi_jun
  • 2013年03月28日 00:40
  • 517

私有继承与保护继承

使用私有继承,类将继承实现。 包含将对象作为一个命名的成员对象添加到类中,而私有继承将对象作为一个未被命名的继承对象添加到类中。使用术语子对象(subobject)来表示通过继承或包含添加的对...
  • u012303544
  • u012303544
  • 2015年08月01日 00:37
  • 326

p2p搜索器 的实现原理其实很简单

当它点燃时的p2p搜索器最新版 p2p搜索器 的实现原理其实很简单 今天的当它点燃时的p2p搜索器最新版,用她那颗拥有大爱,对自己念,便撕了一张报纸,然后飞到住着彼得潘的永无岛上,让我们自由成长...
  • i_like_cpp
  • i_like_cpp
  • 2013年04月06日 09:16
  • 4394

实现机器学习算法的三代工具

1、传统的机器学习和统计分析的工具包括SAS,SPSS,Weka和R,他们允许小数据集的深度分析。 2、第二代机器学习工具如Mahout,Pentaho和RapidMiner,可以对大数据进行浅分析...
  • hunauchenym
  • hunauchenym
  • 2013年03月17日 18:30
  • 1733
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:第三代搜索引擎和p2p【转】
举报原因:
原因补充:

(最多只允许输入30个字)