搜索技术谁优谁劣大比拼

GooglePageRank算法和百度的超链分析为代表的关键词搜索引擎技术在大型的、结构化的网络搜索中取得了空前成功,但是在结构更为紧密的企业管理系统中,该算法在索引、安全以及关联操作上,仍存在若干局限。<?XML:NAMESPACE PREFIX = O NS = "urn:schemas-microsoft-com:office:office" />

如所周知,PageRank算法基于如下假设:指向一个网页的链接越多,这个被指向的网页的相关性及权重就越高,从而也就会排在更靠前的位置。百度的超链分析与此稍有不同。除了文件本身对关键词的引用外,超链分析还考虑了反向链接中的关键词。当一个关键词被搜索时,含有以关键词为链接文字的反向链接数目最多的那个文件或网页,将被作为最相关的结果排在前面。

  上述算法在网页搜索方面很有效,特别是凭借布尔表达式查询的时候,但在搜索结果的呈现方式如自动关联、自动分类、自动聚类、个性化建档等方面,则可说建树不多。

不妨来看看Autonomy的做法。Autonomy的算法基于一种专有的模式匹配技术,可根据单词或词语的出现频率来识别不同文本在上下文环境中的语义,并以此判断一篇文档与某个主题的相关度。通过这种方法,Autonomy可抽取文档中的文本要素,自动识别文本的概念。也因此,该算法 本身兼具了某种程度的语义搜索功能,同时也克服了PageRank算法中关键词之间没有重要性差别、也不支持语义搜索和自然语言搜索的缺陷。

也是因为基于模式匹配和概念搜索的算法,Autonomy可抽取文档中包含的重要概念自动进行聚类,将相似的文档聚类到一起并自动生成类别的标题。该算法还可以自动对信息进行分类,自动标引,并基于用户兴趣自动匹配出个性化、多侧面的直接档案和隐含档案(通过点击和提交)。固然,传统关键词搜索也支持自动分类,但由于使用的是传统SVMKNN算法进行分类,在分类效率和准确率上仅可做到差强人意。

模式识别算法还可以对文档中最主要的概念进行动态摘要,依据用户的兴趣所在和相关性权重值的不同,每次摘要的内容可以是不同的,而关键词搜索只能生成固定的摘要信息,且摘要信息往往不连贯,甚至无法卒读。

此外,模式识别算法也可以分析信息间的主要关系,从而实现内容间的交叉索引对照和自动关联,并实时生成超链接。当文档被查阅时,这些链接可以自动一次性插入到文档中,因此可以将以前写的文档作为当前文档的参考,档案资料也可以链接到最新的新闻或相关资料。而关键词算法则是基于矩阵模型的相关文件分析,处理效率取决于文章大小和文章数量。基本上,文章数一超过10万量级,搜索响应速度就会受到影响。

不过有迹象表明,Google、百度、微软等关键词搜索厂商正在着力修补自身的搜索模型,为之增加更多的变量,并在探索更个性化、更具有相关性的呈现方式。一个例子是百度指数和Google趋势中文版的先后上线。作为一种显示关键词搜索量随时间走势变化的应用,二者可视为百度和Google在个性化搜索领域的初步尝试。有意思的是,此前数年Autonomy推出的二维岛图、三维信息图等图形化搜索结果聚类呈现方式,与此颇多神似之处。

  更多的信息显示,GoogleIBM已在研发自然语言搜索、语义搜索等第三代搜索技术,微软MSN部门已在研发智能问答式搜索、个性化搜索、个性化用户界面等技术领域,而雅虎和百度则在社会化搜索、社区搜索领域走在了前面。

转载于:https://www.cnblogs.com/xinbin/archive/2006/08/04/467453.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值