Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Compa

  • Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Comparison
    在这里插入图片描述
  • RecSys 2020
    本文针对基于隐式行为的top-N推荐算法,探讨严谨的评估方式。

1 INTRODUCTION

推荐算法的分类:

  • 基于内存的方法,MMs
  • 基于隐含因素的方法,LFMs
  • 基于表示学习的方法,RLMs,包括基于物品嵌入的方法、基于深度学习的方法(DLMs)

一项最新研究(Are we really making much progress? A worrying analysis of recent neural recommendation approaches.)表明通过仔细的设置,baseline方法可以超出很多新提出的方法。基准推荐在两个方面极具挑战性:

  • 不同领域、不同平台很多数据集,研究人员只报告挑选数据集的结果
  • 不同的数据处理策略、数据划分方法、评估指标和参数设置,多数论文没有报告数据处理和参数设置的详细过程,导致复现结果不一致

2 PAPER COLLECTION AND ANALYSIS

2.1 Paper Collection

近三年2017-2019,8个顶级会议:RecSys, KDD, SIGIR, WWW, IJCAI, AAAI, WSDM and CIKM。侧重于基于隐式行为的top-N推荐算法,最终获得85篇论文。
在这里插入图片描述

2.2 Paper Analysis
2.2.1 数据集

数据集上的问题:领域多样性、版本多样性。85篇论文中用到65个数据集(版本不同也算一个)。本文挑选了六个数据集作为研究对象:ML-1M (Movie), Lastfm (Music), Yelp (LBSNs), Epinions (SNs), Book-X (Book) and AMZe (Consumable)。本文还详细说明了这六个数据集的版本以及来源链接。

2.2.2 数据预处理

将显式行为处理成隐式行为,将评分设定一个阈值 t t t, 评分>= t t t的样本处理成正样本。按照主要的研究,对于ML-1M数据集, t = 4 t=4 t=4;其他数据集, t = 1 t=1 t=1
由于原始数据集都比较稀疏,50%论文明确指出采用了数据预处理策略,大多使用

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值