Web搜索中的用户意图的自动识别

读这篇文章,是因为的确是太简单易懂了,但是整个论文的结构却是非常的严谨。从分析问题,到解决问题,特别是最后的实验数据的说明,都是非常的详细。不得不感叹国外学者的治学态度,很小的一个问题,能够将其讲得如此透彻。论文的题目是《Automatic Identification of User Goals in Web Search》,中文翻译过来是Web搜索中的用户意图的自动识别,作者是Uichin Lee, Zhenyu Liu和Junghoo Cho,都是California的。

 

摘要

是否能和如何能让查询意图的国陈自动化。首先需要介绍的是一个人工的调查,然后提出问题:导航类和信息类的识别,实验结果正确率达到了90%。

 

简介

在本论文中,学习是否能和如何能够自动识别用户意图而不需要用户的任何反馈。两个挑战:

  1. 是否大多数的查询都能够被预测?有些是很容易识别出来的,但是还有一部分是本身就有二意性的,需要调查这个比率。
  2. 为了识别用户意图,还需要抽取什么特征?语义意思或者一些简单有效地一些特征?

 

论文首先通过人工调查的方式来解决第一个问题,然后抽取两个特征来解决第二个问题。这两个特征是用户点击行为和锚链接的分布。

 

人工调查(Human Subject Study)

两个目的:评价能够有明确意图目的的查询的比率和建立一个benchmark查询集(测试集)。

从Google的查询中抽取50个查询,然后找了28个人来进行调查。

查询的分类

导航类:在心里已经有个明确的站点

信息类:用户需要浏览一些站点来了解一些信息。

由此,有两个判断标准。一个是用户是否是相到达一个单一的站点;另一个是用户是否是相查看多个网站。但是即使这样,还是会有一些查询具有二意性,这需要看参与者参用的哪个标准。比如说一个软件的名字或者一个人名,不同的人会有不同的评价标准。这里只是用概率的方式来最终确定。在最后的实验部分可以看到,会把一个查询的两个类别的概率都列出来。

 

人工分类结果

为了解决第一个问题,假设一个值i(q),表示的是q这个查询被划分成信息类的比率。这样,i接近于0,表示更有可能是导航类,接近于1,表示更有可能是信息类。然后做出直方图,横坐标是i,纵坐标是每个i的范围的查询数量。通过直方图可以清楚的看到,大多数查询集中在横坐标的两端,集中在中间的可以认为是有二意性的,这些大多是人名或者软件名。

 

自动分类中的多特征

主要介绍了两个重要的特征,一个是“过去用户点击行为”和“锚链接的分布”

 

过去用户点击行为

点击分布:背后的意图是如果一个查询是导航类,那么从历史点击中,大多数用户应该集中点击一个网站。而如果是信息类,那么点击的分布应该是均匀的。对于一个查询,统计用户的点击的历史,然后统计出用户的点击过得网站,并且对于每个网站的点击人数进行统计。做出直方图,那么如果直方图集中在左侧,那么更有可能是导航类,但是如果分布式扁平的,那么更有可能是信息类。

每个查询的平均点击数:这个跟上面属于一个意思,如果是导航类,那么点击的网站数目应该集中在一个,而如果是信息类,那么应该分布在更多的网站中。

 

锚链接分布

感性的理解,这个也很好理解。比如说,你扫描大量的网页,然后对于一个查询,统计这个查询作为锚链接文本的信息。主要统计的是这个锚文本所指向的地址信息。试想一下,如果对于这个查询,有一个主页来专门解释他的,那么这些锚文本对应的链接应该都指向于这个网站,所以应该属于导航类。但是,如果没有这样的一个专门的主页,那么这个查询作为锚文本的链接应该指向许多的不同的网站。

 

实验结果

这个部分我觉得是文章写得非常好的一部分,因为他将整个实验都描述的非常的清楚。首先是如何手机这些查询,因为Google的日志是不能轻易的得到的,那么作者在他们实验室的主路由器上面安装了一个抓包工具,来抓取实验室内部的每天的查询信息,以此来得到查询的日志。对于锚链接,还是需要靠爬虫来爬取定量的网页,然后再抽取其中的锚文本以及对应的链接信息。然后就是安排试验了,首先是单独的特征,然后是将这些特征进行合并。

这里引入了一个叫做意图预测图的概念。简单来说,就是一个分布图,横坐标是上面说到的i值,纵坐标是这些特征的值。比如说查询的点击数目分布这个特征,那么可以知道,在横坐标的接近于0的区域,那么这个纵坐标的值应该是很小的,而相反在横坐标的另外一端,值很大。这样在这个二维的坐标图中,可以找到一条分界线,来将这些查询进行划分。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值