搜索引擎:技术里面出“政权”



 

“脆弱”的优势

去年秋天至今,Google在全球范围内获得了异乎寻常的关注,一些观察家甚至认为它是“这个星球上最炙手可热的公司”。但是,当Google的技术主管Craig Silverstein面对“Google能否通过不断关注先进的搜索技术而使自己永远领先于竞争对手”这样的问题时,他的回答是非常谨慎的。“从一个搜索引擎移植到另一个更好的引擎上是非常容易的,”Silverstein说,尽管Google为了在这场技术之战中掌控“前线”的主导权,已经投入了成百上千的研究人员和软件开发人员,并掌握了大量的目前最先进的技术,但是这些技术并不能保证永久的成功。“我们希望下个技术突破还能从Google开始,但是谁又能打保票呢?”

的确,在搜索引擎市场,“革新”就像纸牌中具有任何牌值的“百搭牌”那样充满了变数。Gartner的一位分析师Whit Andrews说:“在1999年你可以认为AltaVista吃掉了整个搜索市场,但是在1997年,这个市场的霸主却是 Inktomi,而1995年则是雅虎。”所以,你永远也别想知道什么时候从什么地方会冒出来一个毛头小子把你建立起来的这个“搜索帝国”变成“昨日黄花”。

从某种角度来看,Google是脆弱的,因为它不像AT&T或者微软那样在各自的领域内占据基础架构上的优势:AT&T曾一度控制了大部分的电话网络,微软则控制着PC操作系统市场的主导权,这些都可以在极大程度上帮助它们保证自己的“政权”不被竞争者颠覆。事实上,今年1月份的有关报道已经指出,雅虎可能很快要放弃与Google的合作,转而发展自己的搜索技术了。甚至一位为苹果电脑开发搜索工具的核心技术人员认为:“如果说Google在其诞生之初还有一些值得称道的新技术的话,那是因为当时还没有人去考虑搜索技术。”而令Google公司“引以为荣”的那句话——Google的搜索算法之所以能够最大程度地检索到相关内容是因为它是目前最流行的搜索引擎——似乎也在一定程度上反映了它在技术上的缺失。很多人相信,目前许多其他的搜索引擎已经具备了替代Google的技术实力。

在搜索产业,残酷的竞争必将一直持续下去,尤其是在那些尖端技术的拥有者之间竞争将更加激烈,例如在自然语言理解和机器学习等技术领域。在未来的5到10年间我们会发现,搜索引擎将发生巨大改进,它将为我们提供关联性更强、价值更高、数量更多的有序信息,而所有这些改变都依赖于这种残酷的技术竞赛。

透视Google

假如你想了解一些有关18世纪坏血病的治疗信息,如果不通过搜索引擎,你将根本无从知道这些信息正存储在苏格兰爱丁堡皇家医学院的一个服务器上的一个具有奇怪名字(www.jameslindlibrary.org/trial_records/17th_18th_Century/lind/lind_kp.html)的文件里。但是,即使你在Google、MSN或者Ask Jeeves这些搜索引擎的搜索框里输入“scurvy(坏血病)”,你也没有办法准确地找到皇家医学院的这个文件。因为,这些搜索引擎每秒钟都会扫描成千上万个Web页面,然后把其中的关键词、短语、标题、副标题、链接以及其他一些描述信息以索引的形式存储在数据库中,当你输入搜索的关键词后,搜索引擎会拿这个关键词和索引列表中的每一项进行对比,把包含一个或多个关键词的项目以相关性从大到小的顺序呈现给你,而你将不得不对面前这个巨大的列表再次展开地毯式的人工搜索。

在这其中,如何判断某一个索引项目和搜索关键词之间的相关度是每一个搜索引擎的核心,也是每家搜索公司的“秘密配方”。1999年,Google能够异军突起主要就是得益于它的网页评级(PageRank)算法。这个算法由Google创始人Larry Page和Sergey Brin在斯坦福大学发明,它首次利用了网页之间大量的相互链接,因为,事实上,每一个链接都是一个网页的作者对被链接网页的内容的一个肯定。Page和Brin意识到,如果他们把索引建设得足够大,就可以通过计算某一个网页被其他网页链接的数量来衡量这个网页的重要性。当然,这并不是一个简单的计数问题,他们也把其他的一些因素考虑了进去,例如被链接网页的主题与链接网页之间的相关性有多大,以及链接网页的权威性和声望有多大等。

事实证明,Google的这项技术运行得非常成功,从用户的点击率就能看得出来。搜索引擎大鳄AltaVista一直是根据网页中提到搜索关键词次数来确定网页相关度的,根据从研究机构Media Metrix和Alexa得到的数据显示,在2000年7月到2004年1月这段时间里,AltaVista在全球Web通信量排行中从第8位下滑到第61位,而Google则从几乎不为人所知一下攀升到了第4位。“Google”这个词也被美国权威机构ADS(American Dialect Society)评为2002年度最有价值的词语。

当然了,网页评级算法也有一些缺陷。例如一些希望自己的Web地址能够在Google的搜索结果中排得靠前一些的网站,甚至可以肆无忌惮地创建成千上万甚至上百万的垃圾页面,这些页面都链接到他的网站上,从而人为地提升其级别(尽管Google曾表示它们有办法抵制这种做法,但是具体怎么做我们至今仍不得而知)。另外,同样的漏洞还可以造成“Google爆炸(Google bombing)”。这是最近出现的一种现象:博客(blogger)们故意在某一网站上提出一种异想天开的或者政治性非常强的观点,使得这一网站很快被许多其他网站链接,当用户在Google搜索框内输入相关的关键词时,这个网站就可以排得很靠前。例如,“Google炸弹”的制造者们以反对伊拉克战争为由头,提出美军在对伊战争中惨败等敏感观点,并设法引起布什政府注意,从而间接抬升它的级别。

但是,令一些专家更加头疼的是,网页评级算法使那些原本合法的、并且非常符合用户检索需求的网页,因为很少被其他网页链接而被深深地埋在成千上万的搜索结果中。对于一个特定用户来说,某一个网页跟他的检索需求的相关度其实并不取决于这个网页是否流行。

“星爆”思想

“谁控制了信息流,谁就拥有了尽管微薄但却最广泛的力量,”Mooter搜索引擎的女主人Liesl Capper说,搜索引擎应该将这种权利归还给互联网上的每一个个体用户。也正因为如此,Mooter的目标就是让网络检索更加简便、更加个性化。Capper在赞比亚长大,曾在南非学习心理学,她在1997年移民澳大利亚并选择研究搜索技术作为她的事业。她在悉尼市区成立一家店铺,并且雇佣了一个经验丰富的软件设计师Jondarr Gibb,以及当时正在做博士毕业论文的John Zakos,而他的论文主要研究的就是神经网络理论如何应用于互联网搜索。

这三个人将心理学、软件理论以及神经网络结合在一起,发明了一种用于搜索引擎对网页相关性评级的算法,这种算法可以学习、理解特定用户的需求。在向用户“倾倒”一大堆网页的链接之前,Mooter引擎利用这种算法分析用户关键词的潜在含义和它的近义词,然后结合特定的场景对搜索到的网页的相关度进行评级,并将排序后的结果分别放在不同的簇(Cluster)中。用户首先看到的是一个“星爆式(StarBurst)”的文字显示界面,它显示出了许多簇的名字。例如输入一个检索关键词——Paul Cezanne(保罗·塞尚,后期印象画派的代表人物),搜索结果会显示出art、artists、Cezanne、france等几个簇,这是体现心理学的部分。“当你利用传统搜索引擎进行检索的时候,面对数以百万计的链接结果,你会在头脑中对要找到的内容有一个概念性的分类,”Copper说:“但是,我们的大脑在某一时间只能同时处理三到四种信息。将信息分成簇正是考虑到了这一点。”

Mooter引擎还能够精确理解用户的检索需求。例如,用户输入关键词——dog,在随后显示的许多个簇中,可能会有一个簇的名字是“Breeds(喂养)”,点击这个簇,用户看到的将主要是有关小狗喂养的网站。如果用户又选择了其他的簇,那么Mooter会根据用户的兴趣改变链接列表的顺序,其他类型的网站就有可能被排在上面了。在搜索界面上还有一个“Refine”按钮,点击这个按钮,引擎将会进一步缩小搜索范围,例如点击“Breeds”簇之后再点击“Refine”按钮,Mooter会对关键词“dog +breeds”进行搜索,显示一组新的簇。

“Google的搜索技术更多地是把注意力集中在Web的架构上,这样不利于挖掘网页深层次的价值,而含有特定主题的‘簇’的概念则非常相似于生物界的‘群落’,”Teoma的副总裁Paul Gardi说。在Teoma引擎向用户给出搜索结果之前,它会确定下来一系列与关键词相关的“群落”,并找到这个“群落”内的权威站点,然后根据这些权威站点对网页的引用频率确定每个页面的相关程度。Ask Jeeves就是因为放弃了原来的搜索技术提供者转而采用Teoma引擎,而使其检索量在2002年和2003年每年都增加了30%。

同样,深入发掘网页价值也是另外一个新面孔——Dipsie的目标。所不同的是,Dipsie认为Google和Teoma仅仅索引了互联网上所有文档的1%,而Dipsie的搜索站点今年夏天就可以公开问世,届时它的索引能力将达到100亿个文档,是目前Google索引能力的三倍。

所以说,尽管Google目前还是搜索市场的“王者”,但是它的许多竞争对手正带着更加优秀的创意垂涎着它的“宝座”。

微软搜索

如果说有一个软件公司最擅长雇佣那些富有创造力但却玩劣的年轻人,并把他们的绝妙创意转换成足以称霸整个市场的成功产品的话,那么这个公司应该是微软。微软从不放弃计算机科学领域内的任何一个热点市场,一旦它嗅到了一个巨大的市场,就会尽全力吃掉它。目前,微软已经吃掉了PC操作系统市场97%的份额和办公软件市场的90%,而搜索市场是“微软帝国”的版图至今还没有延伸到的少数几个领域之一,因此微软已经将搜索技术视为带动其下一步业务增长的关键。目前,微软的研究人员和产品开发人员正在努力将网络搜索功能集成到在今年晚些时候将要推出测试版本的开发代号为Longhorn的下一代Windows操作系统中。

在微软的搜索软件中,用户只需要用简单的英文描述自己的问题,就能获得一个直接的回答。因为微软相信,用户不应该也不必要为选择一个恰当的关键词而伤脑筋,也不必用“与”、“或”、“非”这样的布尔运算符将这些关键词连接起来,最后也不需要再一页一页地看那些搜索的结果。微软的一位研究人员Eric Brill说,搜索引擎应该能够理解和回答用户用自然语言描述的问题。

让我们看一看比尔·盖茨和他的雇员们已经测试了一年多的这个被称为AskMSR的搜索程序。在它的搜索框内可以输入用户的问题,例如“Who killed Abraham Lincoln?(谁杀死了亚伯拉罕·林肯?)”,随后得到的搜索结果不再是包含问题答案的网站的链接,而是一个非常简明的答案:“John Wilkes Booth(约翰·威尔克斯·布什)。”

这个如此出色的软件并没有利用什么先进的人工智能原理,而是采用了两个令人吃惊的“小技巧”。其中一个就是搜索程序可以从一个存储了大量简单句子的大型数据库中学习语法,然后基于这些语法,用多种方式重新表达用户输入的问题,以便和网页内容进行匹配。例如“Who killed Abraham Lincoln?”可以被重写为“_killed Abraham Lincoln”或者“Abraham Lincoln was killed by_。”这些字符串将按照一定的顺序,用标准的基于关键词的网络搜索方法进行搜索,一旦其中的一个字符串被匹配,搜索程序就可以马上把问题的答案显示给用户。

但是,在很多情况下,程序并不一定恰好找到一个与字符串完全匹配的句子,例如“John Wilkes Booth’s violent deed at the Ford Theater ended Lincoln’s second term before it had started(约翰·威尔克斯·布什在福特剧院的暴行使林肯的第二届总统任期还没有开始就结束了)。”这个句子也完全回答了用户提出的问题,但是却不能和上述任何一个字符串完全匹配。面对这样的情况,AskMSR也同样可以处理,这就是它的第二个“绝招”。在AskMSR看来,如果“Booths”这个词多次和“Lincoln”这个词同时出现在一个句子当中,那么这两者之间必然存在重要的关系,而这个关系就是找到答案的依据,尽管这种做法并不能保证100%的准确(见附表)。不过随着网页数量的增加,AskMSR的准确度也将随之增加。

关于搜索引擎,微软正在做的另外一件事情是设法让搜索引擎真正融入到用户的计算体验当中,使用户的注意力集中在“什么时候”和“怎样”去利用信息,而不是关心搜索引擎是如何工作的。为此,微软的信息获取专家Susan Dumais开发了一个名为“Stuff I’ve Seen”的程序,它的界面将出现在Windows的工具条里,向搜索框里输入问题后,Stuff I’ve Seen会在一个单一的标准窗口中显示一个组织好的列表,通过它可以链接到所有相关的电子邮件、日程表、地址薄、Office文档以及网页。Stuff I’ve Seen还有一个特性叫“隐含查询(Implicit Query)”,假如你在阅读一封电子邮件,隐含查询功能就会在一个小窗口显示一些链接,这些链接指向电子邮件中提到的所有人的电子邮件地址以及他们的头衔,还指向这封邮件的作者上一次给你发的邮件。为了使这个软件更加便于使用,Dumais还打算在点击鼠标右键弹出的菜单中添加一项“Find me stuff like this”。

AskMSR、Stuff I’ve Seen以及其他一些项目都是微软技术策略向搜索市场转移的一部分,它们可以使数以亿计的Windows用户都使用微软的搜索技术,从而鲸吞整个市场,就像上个世纪90年代微软将Netscape赶出浏览器市场一样。不过,其中的关键还在于Windows的文件系统,在现有Windows的文件系统下,每一个应用程序都通过文件夹的形式把存储空间分割为己有,这使得上述的搜索功能几乎无法实现。只有利用Longhorn所采用的新文件系统WinFS才可以实现,因为它的核心是一个关联数据库,所有的数据都以“表”的形式有序地存储在硬盘中,所有的应用程序采用统一的指令对数据进行读写,这样对数据的搜索才成为可能。所以,如果Longhorn集成了上述工具,微软搜索引擎的地位将是今后电脑用户搜索信息的“交通枢纽”。

再看Google

面对微软的强势入侵,Google似乎并没有过于“紧张”,用Silverstein的话来说,Google也有自己的优势。Google的公司规模比微软小得多,员工数量不足微软的2%,所以在实施一些设想的时候会更加灵活。另一方面,在Google,投身于搜索技术研究的人员却多于微软,而且Google的数百名软件开发人员每天都会被要求拿出10%的时间用于自己与众不同的个人爱好,这样可以培养他们不间断的创作灵感。这些个人爱好包括一些跟搜索技术有关的软件的开发。例如语音搜索(Voice Search)允许你在离开办公桌的时候用电话通过语音输入一个搜索请求,然后等你能够上线的时候再查看搜索结果。

但是,所有的这些创意都没有触及搜索引擎的核心,至今仍没有一个对原有“页面评级”算法进行改进或革新的模型出现,也没有任何迹象表明Google会像微软对Windows及其应用程序那样对其搜索引擎进行彻底改造。面对诸多竞争对手,Google对于保持自己的市场分额似乎没有什么好的主意。

不过,有一件事情Silverstein非常津津乐道,那就是他对搜索技术的一个长远目标,尽管他认为实现这个目标还为时尚早。“很显然,用户需要的搜索结果不应该是一个有序的Web站点的链接列表”,他认为,信息获取方面的专家应该把目标定得高一点,搜索引擎在指引用户找到他们所需要的特定资源方面应该和一个训练有素的图书管理员一样。当然,这需要尖端的机器学习和自然语言理解方面的技术。

不过,所有这些设想能否真正成为我们用得上的工具,究竟哪项搜索技术能满足我们对快速、准确获取信息的渴望,以及谁将从中获取最大利益,我们还不得而知。但有一点是值得庆幸的,那就是这种激烈的竞争终究会使搜索引擎在我们的日常生活中变得更有价值,从而更深入地挖掘互联网的财富。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值