基于点击图模型Query和Document相关性的计算

本文探讨了如何从大规模点击图中学习Query和Document的相关性。通过Vector Propagation Algorithm,从query-side和document-side迭代更新向量。对于没有点击数据的Query和Document,采用线性回归构建向量。最终,利用余弦相似性计算query-document对的相关性,以用于搜索排序。
摘要由CSDN通过智能技术生成

参考论文:Learning Query and Document Relevance from a Web-scale Click Graph


背景:

用户的点击日志蕴含丰富的信息,在信息检索领域具有着重要的地位。用户点击行为数据通常用来生成训练数据用户机器学习提高ranking performance,或者是在ranking fuction中作为特征来计算ranking score.

但是点击数据存在脏数据并且具有稀疏性,大量的query和document是没有点击日志的,这也就造成了基于点击生成的特征的质量是难以保障的,尤其是对于一些偏长尾的query.通常会把query形成的预料库和title形成的预料库合并成一个预料库,然后基于共同的这个预料库训练模型,但是在query和document上词法上的区别会在之后计算相关性上带来不好的影响。另外,当query或者是document是没有点击日志时,如何学习query和document的相关性就会变得困难起来。

本文主要研究:

1.在相同的语义空间中产生query和document的向量,在word-level的vector更具有解释性,并且对于click-absent的query和document获得vector带来了解决之法----vector propagation on the click graph。

2.给出通用方法,形成click-absent的query和document的vector.

vector propagation on the click graph

 notations:

Doc: documents形成集合&

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值