参考论文:Learning Query and Document Relevance from a Web-scale Click Graph
背景:
用户的点击日志蕴含丰富的信息,在信息检索领域具有着重要的地位。用户点击行为数据通常用来生成训练数据用户机器学习提高ranking performance,或者是在ranking fuction中作为特征来计算ranking score.
但是点击数据存在脏数据并且具有稀疏性,大量的query和document是没有点击日志的,这也就造成了基于点击生成的特征的质量是难以保障的,尤其是对于一些偏长尾的query.通常会把query形成的预料库和title形成的预料库合并成一个预料库,然后基于共同的这个预料库训练模型,但是在query和document上词法上的区别会在之后计算相关性上带来不好的影响。另外,当query或者是document是没有点击日志时,如何学习query和document的相关性就会变得困难起来。
本文主要研究:
1.在相同的语义空间中产生query和document的向量,在word-level的vector更具有解释性,并且对于click-absent的query和document获得vector带来了解决之法----vector propagation on the click graph。
2.给出通用方法,形成click-absent的query和document的vector.
vector propagation on the click graph
notations:
Doc: documents形成集合&