目录
- Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Comparison
- RecSys 2020
本文针对基于隐式行为的top-N推荐算法,探讨严谨的评估方式。
1 INTRODUCTION
推荐算法的分类:
- 基于内存的方法,MMs
- 基于隐含因素的方法,LFMs
- 基于表示学习的方法,RLMs,包括基于物品嵌入的方法、基于深度学习的方法(DLMs)
一项最新研究(Are we really making much progress? A worrying analysis of recent neural recommendation approaches.)表明通过仔细的设置,baseline方法可以超出很多新提出的方法。基准推荐在两个方面极具挑战性:
- 不同领域、不同平台很多数据集,研究人员只报告挑选数据集的结果
- 不同的数据处理策略、数据划分方法、评估指标和参数设置,多数论文没有报告数据处理和参数设置的详细过程,导致复现结果不一致
2 PAPER COLLECTION AND ANALYSIS
2.1 Paper Collection
近三年2017-2019,8个顶级会议:RecSys, KDD, SIGIR, WWW, IJCAI, AAAI, WSDM and CIKM。侧重于基于隐式行为的top-N推荐算法,最终获得85篇论文。
2.2 Paper Analysis
2.2.1 数据集
数据集上的问题:领域多样性、版本多样性。85篇论文中用到65个数据集(版本不同也算一个)。本文挑选了六个数据集作为研究对象:ML-1M (Movie), Lastfm (Music), Yelp (LBSNs), Epinions (SNs), Book-X (Book) and AMZe (Consumable)。本文还详细说明了这六个数据集的版本以及来源链接。
2.2.2 数据预处理
将显式行为处理成隐式行为,将评分设定一个阈值 t t t, 评分>= t t t的样本处理成正样本。按照主要的研究,对于ML-1M数据集, t = 4 t=4 t=4;其他数据集, t = 1 t=1 t=1。
由于原始数据集都比较稀疏,50%论文明确指出采用了数据预处理策略,大多使用