【阅读笔记】Mining Concept Sequence from Large-Scale Search Logs for Context-Aware Query Suggestion

背景:

这是微软研究院的一篇论文。第一作者是南开大学 Liao Zhen ,主页是http://kdd.nankai.edu.cn/showMemberAction.do?tp=0&&id=80

这篇论文的目的是Query推荐,也就是关键词推荐。在搜索引擎、广告竞价平台中,关键词推荐已经是标配的产品。

同样是搜索引个词,不同的人有不同的意图。这是为什么呢?原因是一个词可能对应到多个概念(或者说是多个类目)。例如“glodiator”(角斗士)这个词,用户可能是想搜索电影,也有人想搜索角斗士的历史,也可能是找著名的角斗士。其实这种情况搜索引擎已经解决的挺好了,搜索引擎一般会同时考虑准确率和多样性的问题,一般它会把用户query的多种意图都检索出来。例如“角斗士”这个Query,搜索引擎可能包百科页面(角斗士历史)、视频(电影)、blog(用户评价)、图片(电影海报、演员)都返回给检索用户。

在很多论文中,搜索引擎希望通过用户的查询或者浏览历史来做更好的判断。这个想法看似简单,时间上比较困难。试想,前一分钟用户还在搜索“nokia 手机”,后一分钟用户搜索“连衣裙”或者“nokia 手机壳”,一个是从手机概念转变为女装,另外一个是从手机概念转变为“手机配件”。在这种情况下,你必须记录每个用户在session时间内的浏览历史,根据用户查询的概念来看和当前的概念是否有关系。当当前的概念比较模糊的时候,看能否通过以前的历史做相应的补充。


聚类过程

论文中介绍的过程很简单,先做概念(concept)的聚类,然后找到concept,用每个concept中浏览次数最多的Query作为代表。用户浏览次数的最多的Query作为cluster的代表,这本身就是一种折中和简单的方法。或许从用cluster中提取一批具有代表性的词或者短语来代表更有说服力。


相关工作:

以前的工作更多的是看用户的点击反馈。关键词分类可以用点击反馈,CTR预估是点击返回,协同过滤也可以看成是点击反馈。


Session-Based approaches:Boldi 的Query-Flow方法

Doc-Click Based approaches:或者可以说是Query-Click URL based bipartite graph 方法。这里更多的是指Random Walk的方法。关注于通过二分图得到query的相关关系。

Query-Doc转移概率矩阵

从Baeza-Yates,Beeferman和Berger,Wen ,有不少通过二部图来计算query相似性,或者聚类的文章。
这里转移概率的定义没有什么特别的东西,甚至非常简单。就是通过query节点看发散概率,或者通过URL节点看发散概率。时间上在 Random Walks on the Click Graph 这篇文章中对转移概率的定义更加细致一些。
在这里实际上还是根据Q-U的矩阵× U-Q的矩阵 迭代最后再乘 Q-U的矩阵。
最终时间上还是得到一个Query-URL向量的一个VSM模型。两个Query直接的距离,转换为两个URL向量之间的距离。从本质上看,这个思想是非常基础的。但是论文后面的亮点是对Query距离计算。
Query用URL向量表示,那么如何减少需要计算的QueryPair 数量就是非常重要的。他把URL看成倒排索引,只有两个Query有共同的URL的时候才需要计算相关性。
后面很长的篇幅是将计算的实现,以及如何应用到分布式上面去。

Concept:

用cluster中Query的URL向量的均值向量表示。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值