【阅读笔记】Mining Concept Sequence from Large-Scale Search Logs for Context-Aware Query Suggestion

最新推荐文章于 2021-01-04 15:58:17 发布

poson

最新推荐文章于 2021-01-04 15:58:17 发布

阅读量1.1k

点赞数

分类专栏：互联网论文文章标签： query search 搜索引擎 nokia url random

本文链接：https://blog.csdn.net/poson/article/details/7427071

版权

互联网同时被 2 个专栏收录

30 篇文章 0 订阅

订阅专栏

论文

20 篇文章 0 订阅

订阅专栏

背景：

这是微软研究院的一篇论文。第一作者是南开大学 Liao Zhen ，主页是http://kdd.nankai.edu.cn/showMemberAction.do?tp=0&&id=80。

这篇论文的目的是Query推荐，也就是关键词推荐。在搜索引擎、广告竞价平台中，关键词推荐已经是标配的产品。

同样是搜索引个词，不同的人有不同的意图。这是为什么呢？原因是一个词可能对应到多个概念（或者说是多个类目）。例如“glodiator”（角斗士）这个词，用户可能是想搜索电影，也有人想搜索角斗士的历史，也可能是找著名的角斗士。其实这种情况搜索引擎已经解决的挺好了，搜索引擎一般会同时考虑准确率和多样性的问题，一般它会把用户query的多种意图都检索出来。例如“角斗士”这个Query，搜索引擎可能包百科页面（角斗士历史）、视频（电影）、blog（用户评价）、图片（电影海报、演员）都返回给检索用户。

在很多论文中，搜索引擎希望通过用户的查询或者浏览历史来做更好的判断。这个想法看似简单，时间上比较困难。试想，前一分钟用户还在搜索“nokia 手机”，后一分钟用户搜索“连衣裙”或者“nokia 手机壳”，一个是从手机概念转变为女装，另外一个是从手机概念转变为“手机配件”。在这种情况下，你必须记录每个用户在session时间内的浏览历史，根据用户查询的概念来看和当前的概念是否有关系。当当前的概念比较模糊的时候，看能否通过以前的历史做相应的补充。

聚类过程

论文中介绍的过程很简单，先做概念（concept）的聚类，然后找到concept，用每个concept中浏览次数最多的Query作为代表。用户浏览次数的最多的Query作为cluster的代表，这本身就是一种折中和简单的方法。或许从用cluster中提取一批具有代表性的词或者短语来代表更有说服力。

Query-Doc转移概率矩阵

从Baeza-Yates，Beeferman和Berger，Wen ，有不少通过二部图来计算query相似性，或者聚类的文章。

这里转移概率的定义没有什么特别的东西，甚至非常简单。就是通过query节点看发散概率，或者通过URL节点看发散概率。时间上在《Random Walks on the Click Graph》这篇文章中对转移概率的定义更加细致一些。

在这里实际上还是根据Q-U的矩阵× U-Q的矩阵迭代最后再乘 Q-U的矩阵。

最终时间上还是得到一个Query-URL向量的一个VSM模型。两个Query直接的距离，转换为两个URL向量之间的距离。从本质上看，这个思想是非常基础的。但是论文后面的亮点是对Query距离计算。

Query用URL向量表示，那么如何减少需要计算的QueryPair 数量就是非常重要的。他把URL看成倒排索引，只有两个Query有共同的URL的时候才需要计算相关性。

后面很长的篇幅是将计算的实现，以及如何应用到分布式上面去。

Concept:

用cluster中Query的URL向量的均值向量表示。

poson

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【阅读笔记】Mining Concept Sequence from Large-Scale Search Logs for Context-Aware Query Suggestion

背景：这是微软研究院的一篇论文。第一作者是南开大学 Liao Zhen ，主页是http://kdd.nankai.edu.cn/showMemberAction.do?tp=0&&id=80。这篇论文的目的是Query推荐，也就是关键词推荐。在搜索引擎、广告竞价平台中，关键词推荐已经是标配的产品。同样是搜索引个词，不同的人有不同的意图。这是为什么呢？原因是一个词可能对应到多个概念
复制链接

扫一扫