从Google Toolbar 4.0 Beta看搜索引擎的发展

Web可以获得如此巨大的发展,一个很重要的原因就是HTML的简单、易用;简单的HTML使任何人可以高效的发布信息。但发布的信息要供其他人使用,必须通过搜索或者索引机制;Yahoo的发展和出现得益于其网页目录,不过信息量的剧增使对Web编目变得几乎不可能(目前仅Google可以搜索的Web页已超过80亿页),因此搜索引擎变得越来越重要。

目前的搜索引擎的基本原理是对无语意结构的HTML文本的全文搜索,从Yahoo到现在的Google,并没有本质的改进。这种搜索引擎的一个重要问题是搜索结果中大部分结果并不是用户所需要的,其本质的原因在于Web页的除了其文本的意义外,没有背景知识和具体含义。因此,学术界和业界提出了语意Web(Semantic Web)的概念,简单来说,就是扩展现有Web,使Web页不仅仅是供信息表达的手段,而且可以自描述,具有语意,而更好的搜索http://del.icio.us和互操作。

从学术的角度,一个可以准确有效搜索、推理的Web应该是一个语意的Web,即结构化的和有意义的Web;但从现实角度,目前数十亿的页面不可能消失或者重建。因此,一个可行的方法就是包装已有信息,给已有信息增加语意的说明,即元数据,例如标签(Tag或Annotation)。

搜索历史,(包含标签的)书签都是为Web页增加注解(annotation),而通过对信息增加注解,是知识表达、互操作、推理的重要手段、也是提高Web搜索效果和准确度的重要手段和方法,是语意Web(Semantic Web)研究的前沿方向之一。对于研究者,如何为巨大的Web资源添加注解是一个真正的问题,例如自动化工具,而对于Google,通过搜索历史、书签,利用其巨大的用户群,正是完成这样的工作的最好和最经济的途径和方法,因此,Google在免费提供服务的同时,所有用户也在免费为Google打工。

通过搜索历史,Google可以了解用户的背景知识,通过书签,Google可以为巨大的Web增加标签,了解其背景知识和具体的语意,从而为用户提供更好的搜索服务。

从这个意义和角度,Google Toolbar的书签服务,Yahoo收购del.icio.us就可以理解,大家要做的是一样的事情,都是为了提供更好的搜索结果,而不是简单的提供书签服务。

说明:个人研究方向是空间数据库与互操作,有关Semantic Web及其搜索引擎的问题,错误之处还请不吝指教。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值