背景:
这是微软研究院的一篇论文。第一作者是南开大学 Liao Zhen ,主页是http://kdd.nankai.edu.cn/showMemberAction.do?tp=0&&id=80。
这篇论文的目的是Query推荐,也就是关键词推荐。在搜索引擎、广告竞价平台中,关键词推荐已经是标配的产品。
同样是搜索引个词,不同的人有不同的意图。这是为什么呢?原因是一个词可能对应到多个概念(或者说是多个类目)。例如“glodiator”(角斗士)这个词,用户可能是想搜索电影,也有人想搜索角斗士的历史,也可能是找著名的角斗士。其实这种情况搜索引擎已经解决的挺好了,搜索引擎一般会同时考虑准确率和多样性的问题,一般它会把用户query的多种意图都检索出来。例如“角斗士”这个Query,搜索引擎可能包百科页面(角斗士历史)、视频(电影)、blog(用户评价)、图片(电影海报、演员)都返回给检索用户。
在很多论文中,搜索引擎希望通过用户的查询或者浏览历史来做更好的判断。这个想法看似简单,时间上比较困难。试想,前一分钟用户还在搜索“nokia 手机”,后一分钟用户搜索“连衣裙”或者“nokia 手机壳”,一个是从手机概念转变为女装,另外一个是从手机概念转变为“手机配件”。在这种情况下,你必须记录每个用户在session时间内的浏览历史,根据用户查询的概念来看和当前的概念是否有关系。当当前的概念比较模糊的时候,看能否通过以前的历史做相应的补充。
聚类过程
论文中介绍的过程很简单,先做概念(concept)的聚类,然后找到concept,用每个concept中浏览次数最多的Query作为代表。用户浏览次数的最多的Query作为cluster的代表,这本身就是一种折中和简单的方法。或许从用cluster中提取一批具有代表性的词或者短语来代表更有说服力。
相关工作:
以前的工作更多的是看用户的点击反馈。关键词分类可以用点击反馈,CTR预估是点击返回,协同过滤也可以看成是点击反馈。
Session-Based approaches:Boldi 的Query-Flow方法
Doc-Click Based approaches:或者可以说是Query-Click URL based bipartite graph 方法。这里更多的是指Random Walk的方法。关注于通过二分图得到query的相关关系。
Query-Doc转移概率矩阵
Concept: