Understanding User Goals in Web Search

这是04年的一篇论文,题目是《Understanding User Goals in Web Search》,翻译过来就是Web检索中的用户意图理解。这个论文之所以我想看,是因为他的作者是搜索巨头雅虎里面的牛人写得,而且和鼻祖Border的分类体系不一样,这个论文的分类体系更加的精确化。

 

摘要

以前研究的最多的,还是这些所谓的用户怎么查询,以及他们查询什么的问题,但是并不关注为什么会查,也就是查询的真正意图是什么。本文描述了一个理解用户查询意图的框架,但是这个框架是人工分类的框架。然后作了一些实验,发现所谓的导航类的查询比想象的要少。而且还将传统的事务类用资源类来进行代替。

 

简介

如果搜索引擎知道了用户的真正意图,那么搜索的质量将怎么样得到提高?至少来说,搜索引擎可以根据意图对结果进行不同的展示。比如说,现在的搜索引擎大多数有些推广广告在里面,但是只有用户的意图在买东西的时候受欢迎,而如果用户是想查询一些信息,可能就不是很需要了。目前的搜索结果的重排序算法应该根据查询意图的不同而进行改变。总的来说,要完成这个任务,需要注意3点:

  1. 需要对用户意图建立一个概念框架;
  2. 需要建立一种能够让搜索引擎把用户意图和查询关联起来的方式;
  3. 需要改变搜索引擎来适应意图信息。

 

分类体系

第一个任务是要理解用户意图的空间。通俗的讲,就是需要建立一个框架,它能够识别和组织好用户的意图。也就是要建立一个能够对意图进行概括的分类体系。和其他的一样,这样需要从大量的真实的查询日志中来进行归纳。采用头脑风暴的形式,用自己的经验来建立一个心得分类体系。第一个发现就是有相当一部分的查询的意图是需要找到一个一些在线的资源。比如说”beatles lyrics”表面用户并不是要找关于歌词的信息,而是直接想得到它的歌词。当对分类体系进行细分的时候,发现可以建立一个层次的分类体系。

  • 导航类:用户需要查找一个组织或者网站的首页。查询必须在心里就知道有一个权威的关于查询的网站。
  • 信息类:关注的是对于查询内容的信息的获取。这个类别下分,还有问题回答,建议或者一些相关信息。
  • 资源类:需要获得在网页上面能够使用的资源信息。比如说下载,娱乐,交互或者获得一些资源。

 

将查询和意图关联

有两个方法能够将查询和意图动态的关联:用户显式的在用户接口上面表面或者系统自动的分类。比如Google的“I'm feeling lucky”,就表明用户需要直接进入一个关于查询的权威网站。第二个方法就是我以后要重点研究的方法,需要用的统计机器学习的方法,这可能需要成千上万的样例来进行训练。

人工查询分类

看到查询本身或者借助于其他的一些特征,是否能够对查询进行分类?本文设计了一个人工分类的网页,还需要借助于其他的特征包括:查询本身,搜索引擎返回的结果,用户的点击结果和用户的进一步的搜索或者其他的动作。可以看到,3和4的特征都需要有查询日志的支持。这个分类方法的意义在于一方面看是否有可能进行分类,如果能够分类,这些标注信息就可以作为训练数据。所以第一步就是要处理日志,来分析用户在一次查询中的相关动作。比如查询“kelly blue book”,在日志中需要记录在什么时间第一次查询,隔了多少时间进行了下一个动作,下一个动作是重新查询或者是点击了结果。重新查询的重新查询了什么,以及点击的结果是什么等信息。然后根据这些信息,来对用户的查询进行综合的评价,并且最终将其归纳为一个类别。

 

结果

关于结果,论文中有很多的图表进行支持。结果显示和Border的三个类别的比例有所不同,特别是信息类增多了,查询类相对变少了。作者相信,如果搜索引擎要提高搜索质量,那么肯定需要更多的考虑用户的意图。

 

这个论文写得比较早,那个时候大多数搜索引擎比如百度才建立没有几年,所以可能还集中在分类体系的建立,以及这样的分类体系的建立能够对搜索引擎的改善带来多少效果的问题上。现在的研究重点多半开始集中在意图的自动分类上面,这个是现在的研究重点。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值