Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Compa

最新推荐文章于 2022-03-22 00:11:53 发布

Dive_

最新推荐文章于 2022-03-22 00:11:53 发布

阅读量334

点赞数

分类专栏：推荐系统

本文链接：https://blog.csdn.net/qq_38119106/article/details/112868530

版权

Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Comparison
RecSys 2020
本文针对基于隐式行为的top-N推荐算法，探讨严谨的评估方式。

1 INTRODUCTION

推荐算法的分类：

基于内存的方法，MMs
基于隐含因素的方法，LFMs
基于表示学习的方法，RLMs，包括基于物品嵌入的方法、基于深度学习的方法（DLMs）

一项最新研究(Are we really making much progress? A worrying analysis of recent neural recommendation approaches.)表明通过仔细的设置，baseline方法可以超出很多新提出的方法。基准推荐在两个方面极具挑战性：

不同领域、不同平台很多数据集，研究人员只报告挑选数据集的结果
不同的数据处理策略、数据划分方法、评估指标和参数设置，多数论文没有报告数据处理和参数设置的详细过程，导致复现结果不一致

2 PAPER COLLECTION AND ANALYSIS

2.1 Paper Collection

近三年2017-2019，8个顶级会议：RecSys, KDD, SIGIR, WWW, IJCAI, AAAI, WSDM and CIKM。侧重于基于隐式行为的top-N推荐算法，最终获得85篇论文。
在这里插入图片描述

2.2 Paper Analysis

2.2.1 数据集

数据集上的问题：领域多样性、版本多样性。85篇论文中用到65个数据集（版本不同也算一个）。本文挑选了六个数据集作为研究对象：ML-1M (Movie), Lastfm (Music), Yelp (LBSNs), Epinions (SNs), Book-X (Book) and AMZe (Consumable)。本文还详细说明了这六个数据集的版本以及来源链接。

2.2.2 数据预处理

将显式行为处理成隐式行为，将评分设定一个阈值 $t$ ，评分>= $t$ 的样本处理成正样本。按照主要的研究，对于ML-1M数据集， $t = 4$ ；其他数据集， $t = 1$ 。
由于原始数据集都比较稀疏，50%论文明确指出采用了数据预处理策略，大多使用

最低0.47元/天解锁文章

Dive_

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Compa

目录1 INTRODUCTION2 PAPER COLLECTION AND ANALYSIS2.1 Paper Collection2.2 Paper Analysis2.2.1 数据集2.2.2 数据预处理2.2.3 对比 Baseline2.2.4 目标函数2.2.5 负采样2.2.6 数据划分方法2.2.7 评价指标2.2.8 超参数调整3 IMPACTS OF DIFFERENT FACTORS3.1 数据预处理3.2 目标函数3.3 负采样3.4 数据划分方式3.5 评价指标3.6 复杂度分析
复制链接

扫一扫