阅读更多,欢迎关注公众号:论文收割机(paper_reader)
因为排版问题,很多图片和公式无法直接显示,欢迎关注我们的公众号点击目录来阅读原文。
CSDN上排版不好,可以直接点击链接阅读原文
Walid Krichene and Steffen Rendle. 2020. On Sampled Metrics for Item Recommendation. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '20). DOI:https://doi.org/10.1145/3394486.340322
引言
这篇论文是推荐系统大佬Rendle的新作,在投KDD之前,就已经挂在网上了。这篇论文主要对现在推荐系统(recommender system)中常用的基于sample的evaluation方法进行探究。基于sample的evaluation其实是为了解决计算资源不足的问题。
尤其在推荐系统中,最终测试的时候一般需要对item进行排序(ranking),然后计算出rank at K的score,比如NDCG@K,Recall@K。item数量往往会很多,比如benchmark的item数量,一般10k级别的,而一些企业级的item数量可能达到million级的。
所以如果每个user ranking的结果都要计算所有对item的score,对于计算资源的要求是非常高的。因此,evaluation的时候,例如在NCF[He, Xiangnan, et al. "Neural collaborative filtering." ]中,往往先sample出100个negative items,再与ground truth item一起进行ranking排序,如果ground truth item排序高于sample出来的negative items,则表示模型的performance好,若比sample出来的negative item ranking低,则表示模型的performance差。
这种基于sample的evaluation方法,按照通常的思路,如果多做几次实验,从期望上来看可以得到与完整测试(full evaluation)一样的score。但是通过这篇文章,rendle对这种Sampled Metrics提出了质疑,并且从理论和实验中得出了sampled metrics和exact metrics之间可能并不一致的结论,同时还设计了校正的算法(correction algorithm)。
可以说,这篇文章,是推荐系统领域一个非常重要的工作,部分推翻了已有的很多工作的结论,并且也为以后的工作提供了理论上的支持。
Evaluation Metrics
推荐系统中对模型的evaluation一般是基于ranking的,即一个推荐算法,对每个user会有排好序的推荐item list。而评估这个ranking的质量,是通过给定ground truth items,也就是用户有过交互,但是没有出现在训练集中的items,也叫做相关items(relevant items)。评估一个推荐算法的质量,是将这些相关items排序比不相关的items靠前,即算法会对一个user产生一个ranking R,例如R={3,5}代表user的两个相关的items分别排第3和第5。此时,只需要计算该ranking R的score,就可以评估该推荐算法的质量。
基于这样的评估方法, 我们可以设计不同的evaluation metrics:
AUC:模型将相关items排序高于不相关items的可能性(likelihood)