搜索与聚合

郑昀@玩聚SD  20081108

以下是我的一家之言,仅供参考。

引子

   谷歌、百度、雅虎,以及新上线的有道,都在测试更多类型的OneBox。比如在Google里搜素“population of China”,OneBox中会显示“ChinaPopulation: 1,321,851,888 (July 2007 est.)”,这里我们姑且把OneBox模式称为聚合。

   搜索引擎中的聚合,从简单的搜索结果聚合,到简单信息聚合,直至目前的语义聚合,让人看到了整合搜索的曙光。

搜索和聚合是一个事物的两面。

    搜索提供信息参考。聚合则为无目的而来者提供探索路径,为有目的而来者提供条理化知识。二者都需要尽可能地猜测来者目的。

    大家都说搜索往往不知道搜索者所为何来,所以只能千人一面地提供搜索结果。最近Miguel Carrasco建议微软Live Search应该利用好人们在facebook等社区中的身份和活动信息,从而预先掌握用户输入关键词的目的,也就是SNS和Search整合在一起。Google的整合搜索也是如此,都是希望在尽可能多地理解用户的需求之后提供所需要的答案。

    在更了解来者目的之后,揉合在搜索中的聚合将发挥更大传递知识作用。

搜索和聚合合二为一。

    搜索中的聚合,独立出来则可成为一个产品,合进去则成为Google OneBox中所展示的碎片聚合能力。譬如,搜索关键词“李开复”,谷歌搜索结果中,第一页先展现视频搜索结果的OneBox,接下来展示新闻搜索结果。

    大多数网民熟悉的互联网搜索和聚合技术仍然依赖相对简单的模式匹配:将搜索关键字与Web网页上的词汇进行匹配,然后根据一些因素对搜索结果进行排名,例如搜索词汇出现的频率,搜索词汇出现的位置或者是指向具体结果网页的链接数量等等。

    所以,目前百度、雅虎或谷歌的OneBox所展现的信息结构,都还只是信息的搜索结果,或者针对不同领域的数据简单聚合,如搜索股票名称或代码则展示该股票的实时行情。

垂直聚合和语义

    接下来,搜素引擎为了丰富OneBox的聚合,就必须切入每一个垂直领域。

    不同垂直领域特性不同,比如用户可能搜索的是一个饭馆名字(譬如你在谷歌搜索“全聚德烤鸭店 北京”),那么为了更智能地聚合出用户可能需要的信息,而不仅仅是简单罗列地图和联系电话,那么搜索引擎就必须切入这个生活搜索的垂直领域,或者与人合作

    和Google Product Search一样,微软Live Search也早已将它的Product Live Search嵌入到了搜索结果中,只不过缺少了Google Checkout这种在线支付的集成。如果你输入N95G10搜索,你将会看到OneBox中除了产品图片、价格区间、比价等,还出现了产品评论聚合以及打分星级。对于N95手机,列出很多个用户评论分类指标:一般评论、特色、易用性、电池寿命、声音质量等。对于G10相机,则列出画面质量、轻便性和大小指标。这个细节说明垂直做得够深才行。

http://album.hi.csdn.net/app_uploads/zhengyun_ustc/20081111/170718132.p.jpg?d=20081111170756428

    微软Product Live Search的语义特色,在于它自动汇总了这些用户关心指标的评论,并计算了正面负面情感因素,从而可以列出对于Nokia N95手机的电池寿命只有19%的正面评论,定价可承受性只有64%的正面评价等等进一步的统计信息。

    这些,其实就是语义聚合的力量。如何做到呢?

    在语义聚合引擎中,每一个查询都在一些“本体(Ontology)”的上下文范围内执行,来自本体的一些提示信息可以提高搜索的准确性。

    什么是本体呢?简单地说,本体给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的确定词汇外延的有关规则的定义;其目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定领域内通用的词汇,并给出这些词汇和词汇之间相互关系的明确定义。

    在语义检索中,使用的是概念匹配,即自动抽取文档的概念,加以标引,用户在系统的辅助下选用合适的词语表达自己的信息需求,然后在两者之间执行概念匹配,即匹配在语义上相同、相近、相包含的词语。 
    基于本体的智能聚合引擎的基本设计思想如下:
    (1)在领域专家的帮助下,建立相关领域的本体;
    (2)收集信息源中的数据,并参照已建立的Ontology,把收集来的数据按规定的格式存储在元数据库(关系数据库、知识库等)中:
    (3)对用户检索界面获取的查询请求,查询转换器按照Ontology把查洵请求转换成规定的格式,在Ontology的帮助下从元数据库中匹配出符合条件的数据集合;
    (4)检索的结果经过定制处理后,返回给用户。

    有了这么模型之后,实际上就可以复制到不同垂直领域。在分领域做好之后,可以很容易地嵌入到搜索结果中。当然是在尽可能获知用户目的前提下。玩聚网有一个智能语义聚合应用框架,在股票方面做了一些尝试,比如汇总股评和专家点评,计算看多看空倾向,计算买入卖出建议,也有点这个意思。从这个意义来看,微软收购语义建模能手Powerset,未尝不是给自己的搜索输送炮弹。

    搜索们做了OneBox+垂直聚合,又揉合了语义进去之后,算是能见到整合搜索的曙光,接下来就要看如何整合入SNS等社区所包含的身份信息了,以便更深刻地理解用户随时随刻变化的搜索需求。

郑昀@玩聚SD  20081108

《站长Z周刊》 约稿 链接地址: http://www.chinaz.com/z/

元搜-聚合搜索引擎系统全部免费共享-致力打造搜索行业内扩展性能最好、功能最多、系统最稳定、最个性化的免费聚合搜索引擎系统。 与1.0版相比增加/修正了以下功能! 1.修正了搜索页顶部无广告时的搜索框错位! 2.后台增加了SEO外链工具链接! 3.后台增加了LOGO图片更换功能! 4.册除了网页标题上作者的版权信息,同时首页底部版权信息移至首页中部! 5.增加了手机功能! 6.修复了V1.0版不能在线更新的缺点;所以,从V1.1版开始支持在线更新及升级! 下载压缩包并解压后,直接把update目录里所有文件夹及文件上传到主机空间里;即可安装、安装方法分为以下三种;只能选其中1种来安装! 方法1.在根目录下安装:那么你得先把update目录里所有文件夹及文件上传到主机空间的根目录里! 安装地址为http://你的顶级域名/install/index.php 方法2.在根目录下的一个文件夹里安装,例如在目录下的juso目录里安装;那么你得先把update目录里所有文件夹及文件上传到主机空间的根目录下的juso目录里! 安装地址为http://你的顶级域名/juso/install/index.php 方法3.在子网站里安装;那么你得先把update目录里所有文件夹及文件上传到子网站主机空间里! 假设子网站域名地址是 http://sou<.你的顶级域名/ 那么安装地址就是http://sou.你的顶级域名/install/index.php 按提示安装,注意认真看清楚旁边的说明;安装完成后! 后台默认目录为    admin 后台默认用户名为  admin  →加密后→  913839057600002428ac08ffd6c140ae5119f60b 后台默认密码为    admin  →加密后→  913839057600002428ac08ffd6c140ae5119f60b 安装完成后,先登录后台;按以下说明操作(这里只说主要的)! 1.网站管理系统 → 网站基本配置 → 网站地址url(改成你的网站地址,看旁边说明改!) → 提交(改好后点下面的提交) 2.网站管理系统 → 更新缓存文件 → 点选(更新CSS文件、更新JS文件)共两项! 好了,到此为此安装OK!其它功能大家自已慢慢摸索、体会了!!一次不成功,就多试几次吧!!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值