【论文阅读】On the Difficulty of Evaluating Baselines-A Study on Recommender Systems

On the Difficulty of Evaluating Baselines

A Study on Recommender Systems

Abstract

评价推荐系统,与baseline的比较的数值估计有很重要的作用。这篇文章中,他们认为正确运行baseline是困难的。首先,在Movielens 10M上实验,通过仔细设置普通矩阵分解基线,可以改进该基线的结果,甚至好于任何新提出的方法的报告结果。其次,回顾了社区为使用简单方法获得netflix奖的高质量结果所付出的巨大努力。我们的结果表明,研究论文中的实验结果是值得怀疑。研究社区中的结果已经被大量调整。

1 Introduction

与基线比较在推荐系统中,评价研究成果起着核心作用。这篇文章质疑这种做法,因为合适地运行基线是很困难的。
就是netflix奖中的结果可以得到最好的结果,并且能够经过时间的检验。
所以认识到运行基线的困难对于进行实验和的得出结论都有影响。强调使用固定指标进行实证并不是评价的唯一方法。同时,认可了局部低秩结构、矩阵近似混合和自动编码器这样的新技术都是有用的技术。

2 Observation

在本节中,我们首先检查评级预测算法常用的 Movielens 10M 基准。我们表明,通过仔细设置众所周知的方法,我们可以在很大程度上超越之前报告的结果。令人惊讶的结果包括 (1) 贝叶斯 MF ,据之前的作者报道,它是性能最差的方法之一,但它的性能优于迄今为止在该基准测试上报告的任何结果,包括所有最近提出的算法。 (2) 十年前为 Netflix 奖提出的众所周知的增强功能,例如 SVD++或 timeSVD++ ,可以进一步大幅提高质量。
其次,我们将这些发现与netflix奖结果的有据可查的演变进行比较。同样在netflix奖上,我们发现设置方法具有挑战性。例如,不同出版物报告的矩阵分解结果差异很大。然而,Netflix奖鼓励调整和报告最好运行结果。从长远来看,结果得到了很好的校准。
在这里插入图片描述

2.1 Movielens

在 Movielens 10M 的全局随机 90:10 分割上测量均方根误差 (RMSE) 是评估评分预测方法的常见基准 。图 1 显示了过去 5 年该基准报告的进展情况。所有新提出的方法都明显优于早期的基线,例如矩阵分解或玻尔兹曼机(RBM)。矩阵分解的 SGD(RSVD、偏置 MF)和贝叶斯版本(BPMF)均被发现表现不佳。该图表明,通过显着提高评级预测的最新技术,取得了稳步进展。许多结果还包括标准差,以表明结果具有统计显着性。

2.1.1 A Closer Look at Baselines

报告的偏向 MF、RSVD、ALS-WR 和 BPMF 结果表明存在一些问题。
在这里插入图片描述

  1. 有偏差的 MF 和 RSVD 本质上是相同的方法:用 SGD 学习的 L2 正则化矩阵分解。定性差异应该仅源于不同的设置,例如超参数、训练数据排序或实现。
  2. ALS-WR 和 Biased MF/RSVD 是通过不同算法学习的相同模型。当两者都调整得很好时,它们在 Netflix 奖上表现出非常相似的结果(参见第 2.2 节)。
  3. BPMF 与 RSVD/ALS-WR 共享模型,但通过吉布斯采样器学习。在 Netflix 奖上,与其他学习方法(SGD、ALS、VB)相比,它显示了学习矩阵分解模型 的最佳性能。令人惊讶的是,它在 Movielens 10M 上显示的质量比 Biased MF 和 ALS-WR 差得多。
2.1.2 Rerunning Baselines

我们重新运行基线并出现了不同的情况(参见图 2 和表 1)。有关实验的更多详细信息可以在附录中找到。
矩阵分解 首先,我们运行了通过 SGD 算法学习的矩阵分解模型(类似于 RSVD 和 Biased MF)。 SGD-MF 对于 512 维嵌入的 RMSE 为 0.7720,对于 64 维嵌入的 RMSE 为 0.7756。这比 RSVD (0.8256) 和 Biased MF (0.803) 的报告值要好得多,甚至优于几种较新的方法,例如 LLORMA (0.7815)、Autorec (0.782)、Wemarec (0.7769) 或 I-CFN++( 0.7754)。
接下来,我们使用吉布斯采样(类似于 BPMF)训练贝叶斯矩阵分解模型。对于 512 维嵌入,贝叶斯 MF 的 RMSE 得分为 0.7633。这不仅比之前报道的 [21, 32] BPMF 数值 (0.8197) 好得多,而且甚至优于 ML10M 上报道的最佳方法 (MRMA 0.7634)。
更强的基线 Netflix 奖的教训之一是,对隐性活动建模具有高度预测性,并且优于普通矩阵分解。 SVD++[12]、非对称模型 (NSVD1)[24] 以及某种程度上的 RBM [30] 都是利用隐式反馈的模型的例子。另一个重要方面是捕捉时间效应[14]。
首先,我们在贝叶斯矩阵分解模型中添加了一个时间变量,并获得了 0.7587 的 RMSE。其次,我们通过添加包含用户观看的所有视频的词袋预测变量来训练隐式模型。该模型相当于 SVD++ [12, 27]。它比贝叶斯 MF 进一步改进,RMSE 达到 0.7563。接下来,我们训练了一个带有时间和隐式使用信息的联合模型,类似于 timeSVD++ 模型 [14]。该模型的 RMSE 为 0.7523。最后,我们在 timeSVD++ 中添加了隐式用法的翻转版本:一袋词变量,指示观看过视频的其他用户。该模型将 RMSE 降至 0.7485。
总结 通过仔细设置基线,即使使用简单的贝叶斯矩阵分解,我们也可以优于任何结果——之前报道这种方法在 ML10M 上表现不佳。应用近十年来已知的建模技术,我们能够实现实质性改进 - 从绝对值来看,我们比之前报告的最佳结果 MRMA 比 2017 年提高了 0.0144,与该数据集报告的几年改进幅度相似2。我们的结果对之前 ML10M 实验结果得出的结论提出了质疑。所有最近提出的方法并没有大幅提高基线,而是大大低于众所周知的基线。
在这里插入图片描述

2.2 Netflix Prize

Netflix 奖 [2] 也表明正确运行方法是困难的。我们通过重新审视为获得普通矩阵分解模型的良好校准结果而付出的巨大社区努力来强调这个问题.

2.2.1 Background

Netflix 奖授予了第一个将 Netflix 自己的推荐系统 Cinemaatch 的 RMSE 降低 10% 的团队,其 RMSE 得分为 0.9514 [2]。社区花了大约三年的时间和数百个集成模型才打破了这一基准。鉴于获奖的总体相对改进为 0.095,RMSE 分数 0.01 的差异被认为是很大的——例如,花了一年的时间将 RMSE 从 0.8712(2007 年进步奖)降低到 0.8616(2008 年进步奖),并且2009 年荣获大奖,RMSE 为 0.8554。
Netflix 奖数据集分为三组:训练集、用于验证的探针集和用于测试的资格集。预选赛的收视率在比赛期间被保留。 Netflix 奖的参与者可以向组织者提交他们对资格赛组的预测,并且该组(即测验组)一半的 RMSE 分数会在公共排行榜上报告。剩下的一半(测试集)的 RMSE 是组织者私有的,用于确定获胜者。科学论文通常报告探测 RMSE 或测验 RMSE3。
数据根据用户和时间在训练集、探测集和资格赛集之间进行划分。特别是,对于每个用户,最后六个评级被保留在训练中,其中三个被放入探针组,三个被放入资格组。这种分割技术比全局随机分割更具挑战性,原因有两个。 (1)评分少的用户与频繁评分的用户拥有相同数量的评价数据点。与全局随机分割相比,训练数据很少的用户的评分(即较难的测试用例)在测试数据集中过多。 (2) 按时间扣留使得这是一个预测问题,其中必须推断测试评级,而全局随机分割允许更简单的插值。

2.2.2 Matrix Factorization

从比赛一开始,矩阵分解算法就被认为是有前途的方法。非常早期的结果使用传统的 SVD 求解器进行复杂的插补,报告的结果接近于探针 RMSE0.94.
FunkSVD [9] 是一个突破,它是一种忽略缺失值的稀疏矩阵分解算法。它是通过具有 L2 正则化的迭代 SGD 学习的,并实现了 0.93 的探测 RMSE。这鼓励更多的研究人员尝试矩阵分解模型,在 KDDCup 2007 研讨会上,参与者报告了 0.9227(探针)[22]、0.9190(探针)[24] 和 0.9094(测验)[24] 的改进结果。参与者继续改进基本矩阵分解模型的结果,并报告 ALS 方法的分数低至 0.8985 [37],SGD 方法的分数低至 0.8998 [13]。
表 2 总结了普通矩阵分解的一些关键结果,包括顶级竞争对手和获胜者报告的结果。这些结果表明,即使对于像矩阵分解这样看似简单的方法,要取得良好的结果也并非易事,并且需要付出巨大的努力。
在这里插入图片描述

2.2.3 Refinements and Winning Algorithms

我们之前的讨论仅限于普通矩阵分解模型。在社区收敛到矩阵分解的良好校准结果后,焦点转移到更复杂的模型,考虑到附加信息,例如隐式反馈(例如,SVD++ [12])和时间(例如,timeSVD++ [14]) 。最复杂的 timeSVD++ 模型的 RM-SE 低至 0.8762 [13]。
所有表现最好的团队还严重依赖于集成尽可能多的不同模型,包括复杂的最近邻模型 [15] 或受限玻尔兹曼机 [30]。最终获得 Netflix 奖的模型是多个团队的组合,每个团队有数十个模型 [13].

2.3 Discussion

与最近对 ML10M 的评估相比,Netflix 奖鼓励重新运行方法并报告对相同方法的改进(见表 2)。这确保了社区一致理解哪些方法行之有效。与此相反,对于 ML10M,不鼓励重新运行简单基线的结果,甚至不鼓励超越复杂的新方法。一种解释是,对于 Netflix 奖,参与者通过获得较低的 RMSE 来获得奖励——无论它是如何实现的。就出版物而言,推动当前评级预测工作的因素是,使用旧方法取得良好结果通常不被视为值得发表的科学贡献.
然而,实证比较的最终目标是更好地理解替代方法之间的权衡,并深入了解哪些模式可以带来成功的方法。我们的实验表明,之前 ML10M 的实证结果未能提供这些见解。那些被报告表现不佳的方法实际上表现得很好。与此相反,我们在 ML10M 上的实验表明,在 Netflix 奖上学到的所有模式也适用于 ML10M,并且最好的 Netflix 奖方法在 ML10M 上也表现最好。从这个意义上说,Netflix 奖是成功的,而 ML10M 基准测试则不是(到目前为止)。
就像之前的基线在 ML10M 上没有正确调整一样,最近提出的方法也可能通过更仔细的调整来改善其结果。这不会与我们的观察相矛盾,而是进一步证明进行实验是困难的,需要大量的实验和调整才能获得可靠的结果。
最后,我们要强调的是,这并不是 ML10M 独有的问题。恰恰相反,推荐系统中的大多数工作甚至没有在 ML10M 等标准化基准上进行评估。与 ML10M 相比,一次性评估获得的结果更容易出现有问题的实验结果。

3 Insufficient Indicators for Experimental Reli- ability

我们很快就会讨论用于判断实验结果可靠性的常用指标,例如统计显着性、再现性或超参数搜索。虽然所有这些都是必要的,但我们认为它们不足以确保可靠的结果。我们在第 2 节中的结果表明,它们不如正确的设置重要

3.1 Statistical Significance

ML10M 的大多数结果均报告有标准差(例如,[32, 18])。报告的标准偏差通常较低,并且报告结果的差异具有统计显着性。即使对于[18]中报告的 BPMF 结果,标准偏差也很低(0.0004)。根据我们的研究,(第 2.1 节),统计显着性结果不应被误解为方法 A 优于方法 B 的“证明”。虽然这听起来像是矛盾,但统计显着性并不能衡量方法的建立程度。它测量一种设置内的方差。
只有在我们有证据表明该方法使用得当之后才应考虑统计显着性和标准偏差。我们认为,正确设置方法是错误的更大来源。从这个意义上说,统计显着性几乎没有什么帮助,而且常常给实验结果带来错误的信心。

3.2 Reproducibility

重新运行实验并获得与先前工作中报告的相同数字的能力通常被称为再现性。通常,作者会共享实现和超参数设置,以允许重现结果。虽然可重复性很重要,但它并不能解决我们在这项工作中指出的问题。重新运行作者的代码可以重现结果,但这并不能证明设置正确。在 ML10M 数据集的示例中,数据集是公开的,实验协议有记录且简单,并且存在大量基线的实现 - 甚至作者通常也会公开他们的新方法。 Netflix 奖或大多数机器学习竞赛也是如此。尽管易于重现,但实验结果的结论可能值得怀疑(参见第 2.1 节)。

3.3 Tuned Hyperparameters

我们的核心论点之一是正确运行机器学习方法并不容易。在大多数研究论文中,常见的做法是搜索超参数空间(例如学习率、嵌入维度、正则化)并报告“最佳”设置的结果。然而,第 2 节表明这仍然不能解决问题,并且报告的结果可能与正确的设置有很大差异。我们推测超参数搜索空间通常是不完整的,并且不会用方法代替经验。例如,解释不同超参数设置的结果并对其采取行动并非易事,例如,应该扩展边界还是细化边界?什么是正确的搜索网格?我们可以在一个小模型上搜索超参数并将结果转移到一个更大的模型上吗?所有这些问题都使得建立一个未知的“黑匣子”变得困难。
第二个来源是在超参数搜索期间甚至不考虑的旋钮。例如,一种方法可能需要在运行之前将数据重新居中,或者对训练数据进行混洗,或者提前停止训练,或者使用某种初始化。这样的旋钮可能是微​​不足道的,甚至不值得向有方法经验的人报告,但会让其他人几乎不可能正确地进行比较。当非专家在不同的数据集或实验设置上运行该方法时,这就会成为问题。

4 Improving Experimental Quality

根据我们的发现,可靠的实验很难由一篇论文的作者完成,而是需要社区的努力。我们看到这有两个关键要求:(1)标准化基准; (2) 运行和改进基线结果的激励措施。

4.1 Standardized Benchmarks

虽然当今的最佳实践鼓励论文作者运行尽可能多的基线,但我们的研究结果表明不应鼓励这样做,因为它很容易产生不可靠的结果。如果不鼓励从头开始运行基线,那么获得与其他方法进行比较的唯一方法是标准化基准,即具有明确定义的训练测试分割和评估协议的数据集。具有 10 倍 CV 的 ML10M 或 Netflix 奖金分配(均根据 RMSE 进行测量)是用于比较收视率预测算法的明确定义基准的示例。然而,推荐任务是多种多样的,例如项目推荐与评分预测、冷启动与活跃用户、预测、解释等,其中大多数都错过了标准化基准。虽然探索新任务很重要,但随着时间的推移,社区针对重复出现的问题收敛到标准化基准也至关重要。正如我们在本文中所讨论的,非标准化基准的实证结果可能不太可靠。
关于基准的一个普遍担忧是方法对特定数据集“过度拟合”,导致错误的发现。然而,对于机器学习任务中通常使用的数据规模来说,这并不是什么问题。例如,研究最深入的数据集之一,Netflix 奖,经过 10 多年的研究,几乎没有表现出过度拟合的迹象。公共排行榜 5 和私人(隐藏)排行榜 6 在排序上仅显示出微小的差异,并且具有相同的相对改进。此外,我们在 ML10M 数据集上的结果(参见第 2.1 节)强调了 Netflix 奖的经验教训在十年后仍然有效,并且对 Netflix 奖最有效的模式和方法也是在 ML10M 上表现最好的模式和方法。虽然从长远来看可能会出现过度拟合的迹象,但良好校准结果的好处超过了不正确的基线可能导致的问题。

4.2 Incentives for Running Baselines

ML10M 和 Netflix 奖都是标准化基准。然而,其中一个产生了经过良好校准的结果,而另一个则多年来一直存在误导性基线(见表 1)。我们对这种现象的解释是,没有鼓励继续改进 ML10M 的基线。新颖性是判断研究贡献的关键标准。使用众所周知的方法获得良好的结果几乎没有什么回报,因此研究人员不会花费太多。
努力——即使取得了好的成果,也很难发表。与此相反,Netflix 奖鼓励花时间试验现有方法。这是获得好成绩的最有把握的方法,也是提高比赛排行榜的机会。现实生活中的系统通常也会激励人们熟知、完善的方法,而不是发明新的方法。我们认为找到在基准测试中调整众所周知的方法的激励措施至关重要。正如我们所表明的,这是一项艰巨的任务,需要专业知识和时间。如果没有良好校准的结果,实验得出的结论是值得怀疑的。
除了由科学出版物推动的评估之外,机器学习竞赛(例如 Kaggle7 等平台上的竞赛或年度 KDDCup 等会议组织的竞赛)可以作为经过良好校准的结果的标准化基准。

5 Conclusion

在本文中,我们表明过去五年中许多出版物中使用的 ML10M 基准基线结果并不理想。通过仔细设置普通矩阵分解基线,我们不仅能够超越基线的报告结果,甚至能够超越任何新提出的方法的报告结果。其他知名模型(例如 SVD++)提供了更高的增益。这些结果令人惊讶,因为这些论文遵循了我们社区的最佳实践以确保可靠的结果:它们进行合理的超参数搜索,报告统计显着性并允许再现性。这表明正确运行基线方法很困难。由于推荐系统评估在很大程度上依赖于实证结果,因此这项工作中讨论的缺点凸显了我们判断工作能力的一个主要问题。我们的研究结果对推荐系统研究论文中运行基线模型和在多个数据集上进行实验的常见做法提出了质疑。即使遵循上述最佳实践,结果也可能不可靠。我们的工作表明,值得信赖的基线需要标准化的基准和社区的大量调整工作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值