搜索引擎深度剖析:谁在制造“搜索第三代”

转载 2005年04月26日 13:28:00

http://www.google123.net/html/2004-12-13/20041213142115.htm

来源:互联网周刊

  导言:网络搜索的金矿还远未被充分挖掘,尽管现在的搜索格局已经形成,但这股掘金热必将推进网络搜索技术的又一轮革新。

  2004年,作为互联网上第二大应用的搜索发生了哪些变化?年初,Google推出了区域搜索;年中,中搜和Google的桌面搜索越炒越火,搜狗则宣布启动第三代 搜索引擎;年底,微软亚洲研究院正式把“互联网搜索和挖掘”纳入其主要研究方向……

  一场场造势运动给人以箭在弦上、蓄势待发的感觉,而其瞄准的靶心无疑是2005,第三代搜索引擎全面启动之年。

  超链分析,历史的过客

  曾有国外的第三方机构对搜索引擎网站进行了一次隐式测评,即拿掉各家网站的LOGO,让用户在没有先入概念的情况下为其搜索结果打分。没出预料的是,Google依然是这次评测的第一名;但出乎预料的是,Google只领先第二名一个百分点。这一个百分点对用户来说,几乎是察觉不到的。难道发明Pagerank技术的Google,如今的领先优势就剩这么一点了吗?

  以Pagerank为代表的超链分析技术,是根据网页之间的超链关系来决定网页内容的重要程度,它在现有技术对网页内容缺乏足够认识时发挥了作用,但其理论基础并不坚实,因为这体现的是“谁的声音大,谁就代表真理”的思想,也就是谁的链接多、流量大,谁的 排名就靠前。比如有关SARS的文章, 新浪网上的文章会排在中华医学会网站的前面。这些事例都表明超链分析只是一种参照性技术,而无法揭露内容本身。

  如果无法理解内容,也就无法做到个性化。几年来,搜索网站都在利用相似的超链分析技术对搜索结果进行排序,各家也会不时打开竞争对手的网站,查看一下别人的排序情况,思量一番再微调自己的参数。这样调来调去,各家网站的搜索结果变得越发相似。中搜总裁陈沛认为:“结果和别人不同,可能做得好;如果结果和别人相同,肯定没法做得好。第二代搜索使用的超链分析技术已经不可能实质性改善搜索质量了。”

  第二代搜索行将退出历史舞台,而各种新思想和新技术则开始崭露头角。虽然它们的叫法各不相同,但其带来的第三代搜索很可能在即将到来的2005年成为主流趋势,陈沛甚至预言:“如果搜索公司在2005年下半年还没有第三代搜索技术,就有可能被淘汰掉。”

  第三代搜索,回归的革命

  从上世纪90年代初搜索引擎诞生至今,有数不清的公司投身其中,发明了五花八门的技术用以实现搜索,但具有划时代意义的技术只有两种,一是以人工目录分类为基础的网站搜索,它开始了互联网搜索的时代,是一次开创性的革命。二是以超链分析技术为基础的大规模网页搜索,其搜索结果的准确度从网站上升至网页,让网络用户的搜索体验充满惊喜,成为了一场开拓性的革命。

  第三代搜索日益临近,关于它的概念却还没有统一的定论。但可以肯定的是,搜索引擎正在诸多方面发生着深刻的变化:搜索技术将更加智能化,搜索资源将更加广泛,搜索方式将更加便捷,专项搜索将更加丰富,接受终端也将向移动设备发展。因而即将到来的绝不是一次改良运动,而是一场改朝换代的革命,一次“回归的革命”,让搜索回归内容本身,去贴近生活和普通用户,从而也为搜索产业开拓更大的市场。

  现在,微软、中搜和搜狗都在将人工智能技术融入到搜索排序当中,从而实现搜索结果的个性化。如果用户关心电影,搜索“绿茶”就会将有关电影的结果排在前面,而不是有关饮料的网页。智能化也可以实现区域搜索,虽然互联网是跨区域的,但是内容和服务却是本地化的。如果搜索“川菜馆”,搜索引擎把全世界的川菜馆都给用户,那么大部分结果都将是垃圾。

  未来的互联网也将打通所有网络资源的环节。陈沛认为:“人们需要用最短的时间找到自己最需要的信息,这才是搜索的本质。”所以将来的搜索将很难区分搜索内容的来源,用户可以用桌面搜索查找互联网的、本地的和局域网的内容,也可以查找任何一台和你的电脑相连的电脑的内容。这样利用P2P的搜索,就可以查找一群朋友机器上的共享内容,无论他们是在天津还是在上海。

  来得早不如来得巧

  明确喊出“第三代搜索”且声音响亮的微软、中搜和搜狗,在过去的四年里并不是搜索界的王牌军,但这并不影响他们的斗志,他们相信,搜索是一个由技术推动并迅速更新的产业,对财力和脑力都有极高的消耗。所以当有记者问及微软亚洲研究院院长沈向洋博士,是如何看待Google获得高额IPO时,沈博士风趣地答道:“这说明,计算机专业的博士还是有点用的,搞技术的人还是可以赚一些钱的。”作为微软亚洲研究院的第五大研究方向,互联网搜索和挖掘在沈向洋博士升任院长后高调推出。同时,美国和英国的微软研究院也在此领域有大规模的研究。事实上,微软公司CEO鲍尔默已经宣称微软将在五年内超越Google的搜索技术。

  “在新一轮技术竞争中,有些人落伍了,有些人成功了。这就是为什么这么多人在搜索引擎产业中前赴后继的原因。”虽然中搜是搜索领域的后来者,但陈沛坚信,作为一家年轻的公司,中搜会有更强的创造力。 搜狐旗下的搜狗同样非常年轻,它被寄望于增强搜狐的整体技术实力和品牌优势。回顾这十几年,搜索公司以很快的速度新陈代谢着:Google并不是第一家进入搜索领域的公司,却可以打败Altavista 和Inktomi,成为了第二代搜索的王者。而搜索公司LookSmart 在去年10月被微软MSN网站抛弃后,市值在当天就下跌了52%。

  搜索引擎不是一个靠炒概念就可以混日子的产品,它可以被诸多硬性指标加以衡量,比如网页覆盖率、相关性排序的准确率、更新速度和功能丰富度等。这些指标都可以用来判断一家搜索公司的技术是不是足够过硬,而且最要紧的是,用户对好的搜索技术和差的是完全有感知能力的。

  在2005年,会有哪家搜索公司一夜崛起,又会有谁轰然倒下?互联网曾经并将继续真实记录搜索引擎的发展历史,那么就让我们在来年的互联网上见识一下,究竟谁会成为第三代搜索的“新人王”。

  微软如何胜出

  微软将在明年年初推出MSN的新版搜索,现在Beta测试版已经上线,提供了包括区域搜索和提问式搜索等富有创意的功能。但理想和现实之间总有差距,MSN区域搜索的结果跟Google和雅虎相比还有一定的差距。不过在理论上,微软已经做足了准备。今年,微软亚洲研究院有多篇有关搜索的论文被著名的学术会议录用,其中包括被信息检索方面最权威的学术会议之一的ACM SIGIR收录的7篇,超过此次会议论文收录总数的10%。在微软严谨而系统的搜索研究中,我们看到了它对原有搜索技术所做的六个方面的改进。

  网页块,更小的搜索单位

  现在,一张网页承担着多种功能,除了呈现主体内容以外,它还要显示频道链接和广告等次要信息。虽然对用户来说,这些信息的重要程度是不同的,但对以往的搜索引擎而言却是完全相同的。如果搜索引擎可以区分出网页上哪块是正文,哪块是广告和导航,那么搜索结果应该会更为准确。微软亚洲研究院已经做了这样的研究,它将网页分割成几块,以网页块(block)作为搜索的最小单位。从搜索网页到搜索网页块,微软发现搜索性能可以提升15%~25%。

  分割网页块的工作完全是自动进行的,因为计算机已经学会如何识别网页块及其体现的重要性。机器学习的过程大致如此:找到一批布局各不相同的网页,人工标注其网页块及其重要性,然后将这些训练数据提供给计算机;计算机通过识别每个网页块的属性,包括位置、长宽、字数、是否有图片等,逐渐学习到划分网页块的规律。

  发现99倍的新信息

  以往搜索的数据都是位于网络表层的静态信息,无法挖掘到位于数据库里的深层数据,而据估算,这部分数据可能占互联网上所有信息的99%。

  现在之所以只能搜索互联网上1%的内容,是因为目前的爬行搜索技术无法爬进数据库,它面临着三个难题:一是如何从数据库得到请求响应,爬到数据;二是如何将爬到的数据进行组织;三是如何整合这些信息并呈现出来。

  举例来说,当搜索一个购物网站时,首先要找到获得商品信息的方法,然后识别出这些信息,哪个是价格,哪个是型号,最后要将信息整理好,用友好的界面返回给用户。“这就像在一个黑箱里寻找宝藏,要把数据一点点的试出来。”微软亚洲研究院互联网搜索与数据挖掘组责任人马维英博士这样比喻,“或者像挖雷游戏,如果方法得当,地图一下子就可以被揭开。”

  给每个人贴上标签

  当我们通过搜索引擎了解某个人时,很可能需要阅读许多条链接的内容才能形成大致的概念。而利用聚类技术,与某个人相关的高频词汇就会被识别出来,而数目众多的搜索结果也可以因此归入相关的类别之下。

  搜索小组的研究员最常搜索的人物就是“马维英”,可以看到他的主业是“互联网搜索和数据挖掘”。而当搜索“姚明”时,看到的则是篮球明星、休斯顿火箭队、姚明赞歌等词汇,归类的结果十分有趣。

  从文档到知识的转变

  文档与知识有什么区别?可以这样理解:大考临近,你借来了学习委员的教科书,发现上面划着直线、波浪线和荧光线。这些被标记的地方都是老师强调的“知识点”。由于经常上课睡觉,你的书页上白白净净,只是所谓的“文档”。当你翻开自己的教科书,拿出笔来拷贝学习委员的标记时,就相当于完成了一次从文档提炼知识的过程。

  以后,这个过程将由搜索引擎来完成,当用户搜索一个人或物时,很可能在结果中直接得到一段有关他或它的介绍。这对经常码字的博士生和记者来说,无疑是一个天大的喜讯。

  谁是最有影响力的人

  微软搜索将从相关性搜索领域跨越到智能化搜索领域,并借此实现人际网络搜索等服务。比如提供某人发表论文的情况,这样在某一领域发表过最多篇论文并排在前列的人,无疑是其中最具影响力的人。马维英打趣说,可以根据这个搜索结果决定是否给某人授予终身教授的职位。

  人手一台搜索引擎

  微软利用Windows让更多的人开始使用计算机,而它也想通过进入移动终端,让更多的人开始使用搜索引擎。手机用户的数量远高于计算机用户,而使用频度也更高,市场也更为巨大。因此微软将移动搜索定为其关注的下一个重要领域。移动搜索的界面将是特别改制过的,适合手机屏幕的宽度,以便用户不必左右滚动屏幕,只要上下翻页就可以了。

  中搜:后来的“先行者”

  中搜是搜索领域的后来者,而其总裁兼CEO陈沛却是一个先行者。陈沛曾做过10年的自动检索,5年的人工智能检索,很自然的,他想到了将人工智能技术融入到搜索排序当中。在他看来,智能化和桌面搜索代表着搜索的未来,其领导的中搜也成为这一理念的积极倡导者和坚定执行者。对于很多事情,陈沛都可以侃侃而谈,但却很难回答这样一个问题:“如果你说的这种技术很好,为什么Google不做?”但现在,Google也在中搜之后推出了新闻搜索和桌面搜索。

  互联网周刊:为什么在这次搜索技术的巨大变革中,您认为智能化代表了未来的方向,智能化又是如何体现的?

  陈沛:中搜经常讲的例子是“猎豹”,它可以产生出汽车、体育与竞技、娱乐、生物和极限运动等类别。这样漂亮的结果只有智能化技术才能实现,第二代相关性技术根本无法做到这一点。智能化技术根据关键词和内容之间的关系来确定有可能的几个类别,根据内容自动合并。这个技术跨越了自动分类的技术,接近于自动聚类的技术。而自动分类则是事先手工分好预备的类别,再将大部分关键词进行归类。

  只有智能化搜索才能带来个性化的结果,而只有进入桌面才能使搜索更加个性化。中搜推出的网络猪是第一款桌面搜索软件,它有自己的注册号码,因此具有个性化的能力,它会根据用户的设定和使用,将行为方式和习惯融入到搜索结果中去。

  现在,桌面搜索的声音已经很大了,Google和微软都在力推这一概念。在互联网上,中国人的反应有可能是非常快的。过去,我说桌面搜索代表未来,有人跟我抬杠;等到Google做了桌面搜索之后,全世界都在说应该是这样的。

  互联网周刊:Google现在如日中天,中搜的机会在哪里?

  陈沛:如果看到眼下的搜索结果有很多的缺陷,其他公司就还有巨大的机会。未来的所有搜索都将更加接近用户的需求,所以中搜提供酒店搜索、新闻定制和MP3搜索。而Google搜索MP3的成功率却非常低。中搜做的很多事情,Google都成了追随者。我们开始做新闻搜索,很多人都批评我们,但是现在,没有新闻搜索是搜索引擎的重大缺陷。

  互联网周刊:Google曾经引导过很多潮流,包括它的页面,被多次评为最佳搜索界面。但您对Google这种极简主义风格好像并不太赞同?

  陈沛:Google首页曾经是最佳界面,因为那时用户网速很慢,页面简单是一个优点。但在宽带时代,Google的界面已经过时。有些人认为“输入条+关键词”就叫搜索,我认为那只是搜索的一种方式。其实这种重复劳动应该让机器去做,开句玩笑,应该让猪去做。利用新闻定制,我告诉网络猪把有关Google的新闻都发给我。我们公司市场部的员工全部都在使用网络猪,否则他们怎么知道竞争对手都在做什么。

  定制只是搜索的一个小应用,但却是搜索思维方式的一次革命。中搜的MP3搜索像KTV一样—虽然像Google那样保留了传统的输入框,但可以在上面点歌。比如点击“阿杜”,用户没有输入任何字符,搜索就实现了。我们希望普通用户不要把搜索引擎当作一个复杂的工具,甚至不知道这是一个搜索引擎,但在后台确实运行着搜索技术。所以我们要用全新的方式展示什么是搜索,我们即将推出的网络猪3.0版本,它会给用户极具震撼力的搜索感受。

  互联网周刊:搜索进入桌面后,是否也将带来新的商机?

  陈沛:当然。现在中搜的桌面寻址卖得非常好,网络实名已经过时了。

  搜索有四种方式:一是门户的搜索,二是搜索的门户。按目前的情况来看,后者已经胜过前者。但这两个都不是好的搜索方式。第三种是基于浏览器地址栏的搜索,这是CNNIC和3721的方式,或者利用工具条直接搜索,不需要登录网站。

  但这是最简单的搜索方式吗?我一直在思考一个问题:浏览器和搜索是什么关系,为什么在搜索之前要打开一个浏览器?如果可以在桌面上完成搜索,前面的一切手续都是多余的。所以我提出第四种方式的搜索,桌面搜索。这不仅不需要登录网站,连浏览器都不需要打开,用户在任何地方都可以随时进行搜索,例如输入“联想”,就可以直接进入联想公司的网站。

  搜狗:“农村包围城市”

  对于搜狐来说,第三代搜索不仅意味着对内容理解的回归,还意味着其曾经主业的回归。搜狗要想在新一代搜索中取得和第一代搜索时相同的关注度绝非易事,但它有自己的计划,搜狐公司研发中心总监王小川介绍说:“我们将用丰富的专项搜索吸引用户,以农村包围城市的战略增强搜狗的使用黏性。”现在上线的搜狗专项搜索,除了尽人皆有的新闻和图片搜索外,还包括购物搜索。不久后,搜狗还将推出各个领域的搜索新功能。

  在搜索思想上,搜狗和中搜非常相似,也在第三代搜索中强调用户的个人体验,并同时强调搜索引擎与用户的互动性。据统计,用户在每次搜索时输入的平均关键词个数不到2个,有80%的普通用户不会使用搜索引擎里的补词功能进行下一步搜索。因此,搜狗希望利用分类提示和主题提示等功能,引导用户找到自己需要的信息,这样搜索后台也能更好地理解用户的需求。特别是在关键词语义并不明确的时候,比如“绿茶”,究竟是电影、化妆品还是饮料,用户需要通过互动点击与搜索引擎达成共识。

  搜狗比较有特色的专项搜索是购物搜索,它不仅可以根据品牌提供商品型号,也可以根据商品型号回溯到品牌名称。这样一来,搜索结果就从单一方向的树拓展为360度的网状结构,用户的思维也跟着开阔起来。

  今年8月,搜狗在筹备半年多的情况下火速上线,这种高效率来自于它的年轻团队,这里聚集了大量博士和研究生,与Google的团队非常相似。这也印证了沈向洋博士的那句话,计算机专业的博士还是有点用处的。

搜索引擎深度搜索系统

  • 2015年12月12日 16:37
  • 42.79MB
  • 下载

谁在制造房价泡沫:土地供应下滑 居民杠杆上升

http://finance.sina.com.cn/china/gncj/2016-09-20/doc-ifxvyqvy6808807.shtml 谁在制造房价泡沫   □本报记者 费杨生 彭扬...

谁在制造垃圾专利?

“垃圾专利”实际上指的是那些没有任何创新内容的专利,近年来,虽然我国专利申请的数量和速度在不断刷新,但随之带来的垃圾专利的问题也日益突出。本文对我国“垃圾专利”产生的根源进行了深入分析,有一定的参考性...

搜索引擎深度抓取和广度抓取如何理解

在了最初解搜索引擎工作原理的时候,我们都会了解到搜索引擎搜索抓取机制有两种,一种是深度抓取,一种是广度抓取,在很早的时候就知道有这么两种机制,只是没有细心的去研究下,今天在次看到这个问题,来跟大家浅谈...
  • wqdwin
  • wqdwin
  • 2015年08月15日 16:48
  • 470

深度解析搜索引擎的原理结构

【说明】本文转自:http://www.mahaixiang.cn/seoyjy/246.html  深度解析搜索引擎的原理结构 对于我们这些做网站优化的来说,如果不懂搜索引擎的原理就来...
  • JXH_123
  • JXH_123
  • 2015年05月14日 21:45
  • 1168

在线机器查询看看谁在线

  • 2010年02月13日 11:48
  • 423KB
  • 下载

局域网发现谁在使用BT 录像

  • 2009年03月24日 14:55
  • 1.86MB
  • 下载

GaN(第三代器件)特性的总结

1.GaN的特点: GaN与传统的MOS管不同,由于没有PN结,不存在体二极管,所以不会有反向恢复的问题; DS之间的导通是通过中间的电子层,所以可以双向导通,即常开。 当需要关断时,...

1-2.Redis初识-谁在使用redis

  • 2016年04月22日 09:22
  • 232KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索引擎深度剖析:谁在制造“搜索第三代”
举报原因:
原因补充:

(最多只允许输入30个字)