pairwise 的排序算法用于推荐系统的排序任务中为什么效果差于pointwise的ctr?
Ranking 模型可以粗略分为基于相关度和基于重要性进行排序的两大类。
早期基于相关度的模型,通常利用 query 和 doc 之间的词共现特性(如布尔模型)、VSM(如 TFIDF、LSI 等)、概率排序思想(BM25、LMIR 等)等方式。
基于重要性的模型,利用的是 doc 本身的重要性,如 PageRank、TrustRank 等。
这里我们关注基于相关度的 ranking。
评价指标
MAP(Mean Average Precision)
单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。
例如:假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。
某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0.83。
对于主题2检索出3个相关网页,其rank分别为1,3,5。对于主题2,平均准确率为(1/1+2/3+3/5+0+0)/5=0.45。则MAP= (0.83+0.45)/2=0.64。
学习排序 Learning to Rank:从 pointwise 和 pairwise 到 listwise,经典模型与优缺点
LTR (learning to Rank) 在互联网中目前发展如何?
- ranking 追求的是排序结果&#x