论文翻译-Cross Pairwise Ranking for Unbiased Item Recommendation

qq_53430308

已于 2022-11-01 22:56:27 修改

阅读量699

点赞数

文章标签：深度学习人工智能

于 2022-10-18 11:25:57 首次发布

本文链接：https://blog.csdn.net/qq_53430308/article/details/127377525

版权

ABSTRACT

大多数推荐系统对观察到的交互数据进行优化模型，这受到先前暴露机制的影响，表现出许多偏差，如流行偏差。损失函数，如大多数使用的点态二值交叉熵和成对贝叶斯个性化排序，并不是为了考虑观察数据中的偏差。因此，对损失进行优化的模型将继承数据偏差，或者更糟的是，放大了数据偏差。例如，一些受欢迎的项目占据了越来越多的暴露机会，严重损害了利基项目的推荐质量——这被称为臭名昭著的马太效应。

在这项工作中，我们开发了一种新的学习范式，称为交叉成对排名（CPR），它在不知道暴露机制的情况下实现了公正的推荐。与逆倾向评分（IPS）不同，我们改变了一个样本的损失项——我们创新性地对多次观察到的交互作用进行一次抽样，并将损失作为其预测的组合。我们在理论上证明了这种方式抵消了用户/项目倾向对学习的影响，消除了由暴露机制引起的数据偏差的影响。对IPS有利的是，我们提出的CPR确保了对每个训练实例的无偏性学习，而不需要设置倾向分数。实验结果表明，CPR在模型泛化和训练效率方面都优于最先进的去偏解。这些代码可以在https://github.com/Qcactus/CPR网站上找到。

1 INTRODUCTION

推荐系统已成为许多在线平台的核心，包括电子商务、流媒体、社交网络等。现有的模型大多遵循监督学习范式，该范式将历史交互（例如，隐式反馈[15,16,28]，如点击和购买）视为标记数据，并通过拟合标记数据来学习用户-项目的相关性。两种类型的损失函数被集中用于优化模型参数： (1)点态损失，它通过最小化用户项对的目标和预测相关性得分之间的差异来捕获用户对单个项的偏好，例如，二进制交叉熵（BCE）[11,16,19]和均方误差（MSE）[17,18]；(2)两两损失，它通过鼓励对积极项目的预测高于对消极项目的预测，来模拟用户对两个项目的偏好，例如，贝叶斯个性化排名（BPR）[28]。

然而，这种标准损失函数容易受到观察到的交互数据中固有的偏差。例如，交互数据通常在项目流行度[2]上呈现长尾分布，即少数流行度项目占据了大部分的交互作用。最近的研究表明，项目受欢迎程度混淆了用户的真实偏好和观察到的互动[37,43]，应该正确处理质量推荐。尽管如此，主流的损失函数被设计用来恢复历史数据——假设观察到的交互忠实地反映了用户的偏好——而不影响偏差效应。因此，当构建具有这些损失的推荐系统时，一些流行的项目就占用了越来越多的暴露机会，严重损害了利基项目的推荐质量。

如何减轻偏差并对用户偏好进行无偏估计已成为推荐[7]的一个中心主题。一种流行的解决方案是反向倾向评分（IPS）[12,21,29,30]，它通过每个数据样本的倾向得分（即暴露概率）的倒数来对每个数据样本进行重新加权。尽管IPS在理论上是公正的，但它也有实际上的局限性：(1)由于暴露机制很少了解[31]，因此准确估计每个样本的倾向评分具有挑战性；(2)重加权损失通常表现出较高的方差，特别是对于隐式反馈[29,30,32]，这意味着单个样本的损失与它们的期望值波动很大。

在这项工作中，我们提出了一个样本水平的无偏学习范式，交叉成对排名（CPR），而不需要量化暴露机制。关键的假设是，倾向得分可以被分解为用户倾向、项目倾向和用户-项目相关性。有了这个假设，我们可以通过设计一个新的损失函数来有意地组合所选择的用户-项目对来抵消用户/项目倾向的影响。简而言之，所提出的CPR优于IPS，该CPR确保了每个个体样本的无偏学习，更适合于内隐反馈学习的去偏。此外，为了在训练中更快地收敛，我们借用硬负抽样[27,42]的思想，设计了一种CPR的动态抽样方法。

简而言之，我们将这些贡献总结为如下：

我们从一个新的角度分析了推荐系统中常用的点态损失函数和成对损失函数，结果表明它们在得出用户偏好的正确排名方面存在偏差。

我们提出了一种新的学习方法CPR，并对其在估计用户对个体样本的用户偏好时的无偏性进行了理论分析。

我们对两个基准数据集进行了实证研究，验证了CPR在多个主干模型的推荐去偏中的有效性。

2 PRELIMINARIES

我们首先介绍基本的符号。然后，我们提出了一个关于无偏学习的新视角，并从这个角度分析了点态损失和两两损失的偏倚性。

2.1 Notations

让𝑢∈U是一个用户，而𝑖∈I是一个项目。如果我们观察到用户-项目之间的交互，我们称它们为正对，否则称之为负对。根据之前文献[29,30]的注释，我们定义了三个二元变量：交互变量𝑌𝑢、𝑖、相关变量𝑅𝑢、𝑖和观察变量𝑂𝑢、𝑖。𝑌𝑢，𝑖=1表示用户𝑢和项目𝑖之间发生的交互，否则表示0。𝑅𝑢，𝑖=1表示用户喜欢该项目，否则则表示0。𝑂𝑢，𝑖=1表示用户观察该项，否则表示0。当用户喜欢并观察该项目时，就会发生交互，即𝑌𝑢，𝑖=𝑅𝑢，𝑖·𝑂𝑢，𝑖，导致：

𝑃（𝑅𝑢，𝑖= 1）表示用户𝑢与项目𝑖之间的相关性概率。𝑃（𝑂𝑢，𝑖= 1 |𝑅𝑢，𝑖= 1）是暴露概率——用户𝑢观察到项目𝑖的概率，以其相关性为条件。在这里，我们不假设[29,30]，𝑂𝑢i，𝑅𝑢，𝑖之间的独立性，因为在现实世界中，用户更有可能暴露于高度相关的项目，因为之前的推荐者的暴露机制也捕获了用户项目的相关性。此外，由于先前暴露机制的偏差，在所有潜在的相关项目中，用户更有可能接触到流行的项目，即𝑃（𝑂𝑢，𝑖= 1 |𝑅𝑢，𝑖= 1）一般高于利基项目，这增加了他们的交互概率𝑃（𝑌𝑢，𝑖= 1），使推荐倾向于他们。

让𝑠𝑢，𝑖是ln𝑃（𝑅𝑢，𝑖= 1）。我们称𝑠𝑢，𝑖为用户𝑢和项目𝑖之间的真正相关性得分。更准确地说，𝑠𝑢，𝑖= ln[𝑎·𝑃（𝑅𝑢，𝑖= 1）]，其中𝑎是一个正的常数，改变了𝑠𝑢，𝑖的规模；我们忽略了这个常数，因为它在下面的分析中并不重要。我们使用𝑠ˆ𝑢，𝑖来表示预测的相关性得分，这通常是通过将用户和项目嵌入到一个交互函数，如内积或神经网络[39]来获得的。𝑠ˆ𝑢，𝑖有望估计𝑠𝑢，𝑖，但挑战是我们只有关于𝑌𝑢，𝑖的观测数据，而𝑅𝑢，𝑖和𝑂𝑢，𝑖是不可观测的。

2.2 Definition of Unbiasedness

以往对IPS [29,30]的研究从期望的统计角度定义了损失的不偏倚性，通过重新加权样本，使损失期望等于理想损失。然而，它存在一些实际的局限性，如设置倾向评分的困难和重加权损失的高方差。我们把讨论留到第4.1节来讨论吧。

在这项工作中，我们提出了一个新的关于非偏倚性损失的观点，它不受IPS的限制：

定义2.1。如果损失函数L优化预测的用户项目相关性得分接近于真实的相关性分数那么它是无偏的：

在本节的其余部分中，我们将简要介绍传统的点态损失和成对损失，并从这个新的角度来分析它们的偏置性。

2.3 Biasedness of Pointwise and Pairwise Loss

为了从历史交互中学习用户偏好，大多数模型遵循监督学习范式，这鼓励相关性分数来恢复标签。两种标准损失函数被广泛用于优化模型参数： (1)像BCE [11,16,19]这样的点态损失的目的是通过最小化预测差异来捕获用户对单个项目的偏好：

其中D = D+∪D−；D+是观察到的相互作用集，D−是缺失数据集，𝜎（·）是s型函数。(2)成对的损失，如BPR [28]，模拟了用户对两个项目的偏好。它鼓励对积极项目的预测高于对消极项目的预测：

其中，D𝑆={（𝑢，𝑖，𝑗）|𝑌𝑢，𝑖= 1，𝑌𝑢，𝑗= 0}。接下来，我们将分析它们如何导致对用户真实偏好的有偏估计。

2.3.1点损失的偏性。

第2.1节提案。点损失是有偏差的。

证明。式(2)中的点态损失对正对和负对的相关性得分进行二值分类，可以用以下不等式表示：

其中，𝐶是表示分类阈值的常数。

为了最大限度地提高观察𝑌𝑢，𝑖的可能性，我们应该对𝑃（𝑌𝑢，𝑖= 1）进行排序如下：

它可以被改写为：

这是𝑠𝑢，𝑖的预期排名。与这个期望的排名相比，式(4)实际上使用了𝑠ˆ𝑢，𝑖来建模𝑠𝑢，𝑖+ ln𝑃（𝑂𝑢，𝑖= 1 |𝑅𝑢，𝑖= 1）。𝑠ˆ𝑢，𝑖对于流行的物品通常更高，因为它们的暴露概率往往更高。因此，点态损失是有偏差的，用它优化的模型将有利于流行的项目。

2.3.2两两损失的偏倚性。

命题，第2.2节。两两之间的损失是有偏差的

证明。式(3)中的两两损失鼓励每个用户的正对得分高于负对得分，这可以用以下不等式来表示：

根据预期的排名(5)，我们有：

通过在这两个不等式之间的减法，我们可以写成成对的排名：

与这个期望的排名相比，式(6)还使用𝑠ˆ𝑢，𝑖来建模𝑠𝑢，𝑖+ ln𝑃（𝑂𝑢，𝑖= 1 |𝑅𝑢，𝑖= 1），这对于流行的项目通常较高，因此两两损失是有偏的。

3 METHOD

在本节中，我们提出了一种新的损失CPR，并在一个合理的假设下从理论上证明了它的不偏性。然后，我们将这种损失扩展到一个更一般的形式，以加强对学习的监督。最后，我们设计了一种CPR的动态采样算法，以加快训练速度并提高其性能。

3.1 CPR Loss

下面我们将介绍建议的CPR损失，并在以下小节中讨论其基本原理。我们首先通过选择两个正的用户-项目对（𝑢1，𝑖1）和（𝑢2，𝑖2）来构建一个训练样本，从而使𝑢1不等于𝑢2，同时（𝑢1，𝑖2）和（𝑢2，𝑖1）是负对。对于这样的训练样本，我们提出了一个新的损失如下：

其中，D2={（𝑢1，𝑢2，𝑖1，𝑖2）|𝑌𝑢1，𝑖1=1，𝑌𝑢2，𝑖2=1，𝑌𝑢1，𝑖2=0，𝑌𝑢2，𝑖1=0}表示训练数据。

3.2 Unbiasedness of CPR Loss

CPR损失导致两对正对的总和高于两对负对，这两对是由两对交叉组成的，即：

为了证明它的无偏性，我们首先做了一个温和的假设：暴露概率可以分解为用户倾向、项目倾向和用户-项目相关性，其表述为：

其中𝑝𝑢和𝑝𝑖分别是特定用户和项目特定的倾向，对于活跃用户和流行项目通常更高；𝑃（𝑅𝑢，𝑖= 1）𝛼反映了较高的相关性对暴露概率的贡献更大；𝛼是一个用于平滑目的的正常数。根据此假设，式(5)中的预期排名可以重写为：

我们可以重新考虑等式(4)中的点态排名，由于𝑝𝑢和𝑝𝑖的影响，它对这个正确的排名有偏差。同样地，通过重写公式(7)中正确的成对排名，我们发现由于𝑝𝑖的影响，公式(6)中的成对排名对这个正确的排名有偏差：

命题3.1节。在方程（10）的假设下，CPR损失是无偏的。

证明。给定假设下的预期排名，我们检查了一个训练样本，包括正对（𝑢1，𝑖1）和（𝑢2，𝑖2）和负对（𝑢1，𝑖2）和（𝑢2，𝑖1），并有：

通过前两个不等式和后两个不等式的和，我们得到：

𝑝𝑢和𝑝𝑖在这里被取消了，因为它们对正对和负对有相同的总影响。显然，CPR排名（公式(9)）与这种形式的预期排名相一致——𝑠𝑢，𝑖被𝑠ˆ𝑢，𝑖成功地建模。因此，CPR的损失是公正的。

3.3 Extending to More Interactions

上面讨论的CPR损失只使用了两个观察到的交互作用作为训练样本。我们现在将其扩展到𝑘（𝑘≥2）交互，同时保持其不偏性：

1/𝑘衡量了不同交互数量的样本的损失。我们省略了对其不偏倚性的详细证明，这与前一节类似。图1说明了具有不同相互作用数量的样本的组成。

这些不同类型的样本对排名设置了不同的限制，因此在损失中设置尽可能多的𝑘值是一个很自然的想法。但在实验中，CPR通常在𝑘= 2,3时都能达到最好的性能，而当k值大于3时，性能不能提高。一个可能的原因是，一个更大的𝑘使训练变得不灵活——它迫使更多的配对一起接受训练，即使他们中的一些即将过度适应。在后面描述的实验中，样品只从d2和d3中提取。

CPR的完整的损失函数是：

其中Θ为模型参数，𝜆为控制过拟合的𝐿2正则化系数。

3.4 Dynamic Sampling

显然，如何构建样本集D𝑘在CPR中起着关键作用。一个简单的解决方案是执行随机抽样：首先抽取𝑘个非重叠的正用户-项目对，如果它们的交叉组合都是负对，则将它们作为一个样本接受，否则丢弃它们并重新抽取。这样，所有的样本都以相同的概率被选择出来。然而，在训练过程中，一些硬样本[27]可能需要更多的迭代来收敛，而一些简单的样本对模型优化的贡献较小，应该避免收敛。

受BPR [28]的动态负采样策略DNS [42]的启发，我们设计了一种CPR的动态采样策略，目的是分配具有更高采样概率的硬样本，并更频繁地进行训练。算法1详细说明了如何动态地选择一批样本。我们使用𝑏、𝛽（𝛽≥1）和𝛾（𝛾> 1）分别表示批处理大小、动态采样率和选择率。首先，我们随机选择𝑏𝛽𝛾样本，每个样本都包含𝑘观察到的相互作用（第2行）。选择率𝛾是为了增加初始样本的数量，以确保在下一步中丢弃不合适的样本后，我们仍然可以收集到所需的样本数量。接下来，我们丢弃交叉组合不是𝑘负对的样本，得到𝑏𝛽有用的样本（第3-6行）。我们用这个值来衡量一个样本的难度

这个值越小，这个样本就越难达到其目标排名。因此，我们选择该表达式值最小的样本作为一批样本（第7-10行）。

4 DISCUSSION

我们将CPR与相关工作进行了比较，以证明其新设计的优越性。首先，我们与一种流行的去偏倚方法IPS进行了比较，并展示了CPR如何避免设置倾向评分的困难和高方差问题。然后讨论了CPR和Setwise[8,26,33]排名的区别。

4.1 Comparison with IPS

IPS和CPR都是关注损失函数的去偏性方法，但对损失的无偏倚性的看法不同，因此提供了不同的解决方案。在这里，我们简要地解释了IPS的方法，以及我们的CPR如何避免或减轻IPS的固有问题。

设L𝑖𝑑𝑒𝑎𝑙为正确处理曝光机制的理想损失函数。根据IPS理论，如果损失函数L在暴露的概率分布上的期望等于理想的损失，则它是无偏的：

根据这个定义，作者证明了传统的损失对于具有不等于理想损失的期望是有偏倚的。为了解决这个问题，他们重新加权了传统损失函数中使用的标签𝑌𝑢，𝑖，并将其除以倾向评分，这是对𝑃（𝑂𝑖，𝑗= 1）的估计。然而，从这个解决方案中出现了两个问题：

倾向得分通常是由项目程度（其在训练集中出现的次数）的幂律函数计算的，这是对暴露机制的一种过度简化。

虽然重新加权损失可以有一个理想的期望（如果我们现在忽略倾向分数的不准确性），它的方差可能很大（[30]中的定理4.4，[29]中的定理3.4和[32]），换句话说，对于每个样本，重新加权损失偏离理想损失。通常采用方差减少技术，如将每个样本的权重或损失裁剪到一定范围；但这样，损失期望不再是无偏的。

我们的CPR缓解了这两个问题：

CPR对暴露机制采取了一个更一般的假设，即等式（10），而没有明确地设置任何倾向评分。

CPR改变了损失的组成，而不是重新加权原始损失，从而实现了样本水平的不偏性，在𝑃的温和假设下可以很好地保证P（𝑂𝑢，𝑖= 1 |𝑅𝑢，𝑖= 1）。

CPR损失并不完美——它确保了不偏差，但代价是追求一个宽松的优化目标：鼓励𝑘（𝑘≥2）阳性对的和分高于𝑘阴性对，这可能不能确保定义2.1中预期的一对一比较。但这种对优化的放松可以通过CPR的良好性能得到经验证明。

4.2 Comparison with Setwise Ranking

Setwise排名[8,26,33]是另一个对BPR进行改编的作品。但是CPR在动机和方法方面都有很大的不同。

动机。Setwise排名的目的是通过对项目集而不是实例进行排序来提高BPR的性能。它不是为消除偏而设计的。

方法。对于Setwise排名，给定一个用户𝑢，构建了两个集：S𝑢+是一组积极的项目，而S𝑢−是一组消极的项目。然后，我们鼓励S𝑢+和𝑢之间的相关性比S𝑢−和𝑢之间的相关性更接近。换句话说，他们仍然使用三胞胎{（𝑢，S𝑢+，S𝑢−）}来进行两两排名。但是CPR使用了一种更复杂的样本形式对于交叉成对排名，这赋予了CPR的排名方法所没有的去偏能力。

5 EXPERIMENTS

我们首先描述实验设置，然后评价我们提出的方法与其他竞争的方法进行比较。我们还研究了CPR的去偏效应和泛化能力，并研究了不同成分的CPR样本的影响。

5.1 Experimental Settings

5.1.1数据集。我们对三个真实世界的数据集进行了实证研究：电影镜头-1000万[14]，网飞奖[3]和阿里巴巴i时尚[9]。电影镜头和网飞公司的评级被二值化，将五星评级设置为1，其余的设置为0。对于iFastion，用户点击时尚服装被视为互动。对于所有的数据集，我们采用3核设置来保留更不受欢迎的项目，而不是常用的10核设置来丢弃用户和交互[28]小于10的项目，因为去偏性能在很大程度上取决于不受欢迎的项目。对处理后的数据集的统计数据汇总如表1所示。

5.1.2评估协议。为了评估所提出的去偏方法，我们遵循之前工作[5,22,44]中的离线评估协议来创建模拟的无偏数据。更具体地说，我们以相同的概率对完整数据集中的记录进行采样，以创建验证和测试集，将其余的作为训练数据。此外，我们用一个上限来限制抽样概率，否则，一些不受欢迎的项目的概率可能会很大，使这些项目在验证/测试集中过度采样，而在训练集中留下很少。更正式，让𝑝𝑠（𝑢𝑖）采样的概率用户项对（𝑢，𝑖），我们设置𝑝𝑠（𝑢，𝑖）∝分钟（𝑑1𝑖𝑎），𝑑𝑖𝑖的数量在完整的数据集，和上限𝑎设置为1 60电影和网飞，并设置为1 12更稀疏数据集iFashid。将采样数据随机分为验证集和测试集，其余数据作为训练集。我们获得了训练/验证/测试集的70/10/20的分割。

我们通过三个评估指标来衡量性能： Recall@K、NDCG@K和ARP@K，其中K默认设置为20。召回@K和NDCG@K被广泛用于衡量建议的质量；由于这里我们采用了一个无偏的评估协议，这些指标是在模拟的无偏集上计算的，其中流行的项目被降采样，强调了不受欢迎的项目的重要性，因此这些指标的更高值反映了推荐的更高质量和更好的无偏性。由[1,41]引入的K的平均推荐流行度（ARP@K）是对（un）偏倚的一个额外衡量标准。它计算每个用户的top-K推荐项目的平均受欢迎程度，其中项目的受欢迎程度由它的程度表示。较低的ARP@K值反映了建议更好的无偏性。

5.1.3基线。我们将那些没有明确处理流行偏见的方法称为传统方法，以及那些将偏见处理为去偏方法的方法。我们将所提出的CPR与两种传统方法（以下前两种）和四种去偏方法（其余四种）进行了比较：

BPR [28]： BPR是一种常用的训练方法，它通过最小化成两排名损失来优化个性化排名。

Mult-VAE [23]：这是一个基于变分自动编码器（VAE）的推荐模型，它假设数据由多项分布生成，并使用变分推理进行参数估计。

CausE [5]：这是一种域自适应方法，它为每个项目分配两个嵌入——一个在大量有偏数据上学习，另一个在少量无偏数据上学习。它进一步规范了它们，使它们相似。

Rel-MF [30]：这是一种修改了传统的点态损耗的IPS方法。

UBPR [29]：这是一种修改传统的成对损失的IPS方法。它使用一个非负损失函数来减少估计量的方差。

DICE [44]：这是一种最先进的去偏置方法。对于每个用户和项目，它通过采样特定原因的数据进行训练，学习用户兴趣和一致性两个原因的两个分离嵌入。

除了Mult-VAE，它必须使用VAE架构和VAE损失，其他方法，以及我们的CPR可以应用于不同的骨干。公平比较，我们采用简单和广泛使用的模型，矩阵分解（MF）[20]，这些方法的骨干进行所有实验预期5.4.1节，目的是比较方法在不同骨干包括LightGCN [15]，NeuMF [16]和NGCF [35]。

5.1.4超参数设置。我们在紧张流中实施CPR和基线。除DICE外，所有方法的嵌入大小均为128。为了保持所有方法中嵌入参数的数量一致，我们将DICE的嵌入大小设置为64，因为它为每个用户和项目学习两个嵌入。所有的模型都通过Adam优化器进行训练。对于CPR，从D2和D3中同时抽取样本来计算损失（公式（14）中的集合𝑘=2,3），并在验证集上调整D2和D3的采样比；我们将通过实证证明该样本组成，并在第5.5节中提供关于抽样比的超参数研究。CPR中的动态采样率也在验证集上进行了调整；选择率固定为2。

5.1.5显著性检验。为了检测每个数据集上的CPR和最佳基线之间的显著差异，我们通过改变随机种子来重复他们的实验5次。利用他们的结果进行了双尾两两t检验。

5.2 Overall Comparison

实验结果表明，CPR在有效性和效率方面都具有优越性。

5.2.1有效性比较。有效性比较见表2。我们的方法是CPR-rand和CPR。CPR-rand采用随机抽样，而CPR采用动态抽样。cpr-rand超过了电影镜头和奈飞公司的所有基线。在iFastion上，CPR-rand以最佳基线获得了相似的recall，但ARP较低，这表明其建议的偏差较小。CPR进一步提高了CPR-rand在所有数据集上的性能，在Recall和NDCG上显著优于所有基线，𝑝值小于0.05，这表明CPR优于最佳基线的改善具有统计学意义。请注意，召回率和NDCG是在模拟的无偏测试集中测量的，其中流行的项目被降采样，与测试集是随机抽样的[23]相比，它们的值相对较低是正常的，因为模型通常在不受欢迎的项目上表现更差。

在无偏测试集上，CPR的召回率和NDCG更高，表明其优越的预测精度，尤其是在不受欢迎的物品上。CPR较低的ARP进一步表明，CPR倾向于推荐更不受欢迎的项目，换句话说，它可以更好地减轻人气偏见。

5.2.2效率比较。图2显示了MovieLens和Netflix上所有方法的召回曲线，可以观察到CPR在最少的epoch数下收敛到最佳性能。虽然动态采样处理了更多的样本来选择相对困难的样本，但它可以有效地实现，而成本可以忽略不计。图3比较了所有方法的总训练时间；y轴是对数缩放的。最强的基线DICE需要最长的训练时间，而我们的CPR在所有方法中相对较快。更具体地说，CPR只占MovieLeflix和网飞训练时间的2.6%和1.3%。

5.3 Distribution of Recommendation

为了更直观地检验CPR的去偏效应，我们比较了每种方法中按程度分组的推荐项目的百分比，以及它们在训练和测试集中的百分比。

我们按照以下方式将所有项目分为四组：按升序对所有项目进行排序，并将它们进行分组，使每一组的度之和近似相等。图4显示了每一组训练集和测试集中所包含的学位的百分比，以及每种方法对每一组推荐项目的百分比。由于我们的分组方法，训练集的曲线是平坦的。而对于测试集，推荐项目的百分比随着组ID的增加而减少，因为流行项目被降采样，因此，低度项目所占的比例更大。对于一个理想的无偏推荐，它的分布应该与测试集的分布相匹配。

BPR和Mult-VAE都放大了训练集中的偏见，从第2组和第3组中推荐更受欢迎的项目。UBPR、DICE和CPR等消除方法通过推荐0组和1组更不受欢迎的项目来缓解这种偏见。CPR和DICE获得了最好的去偏结果，使其分布更接近于测试集。

5.4 Generalization Ability

5.4.1不同的骨干。我们应用我们的方法CPR，以及BPR和最佳基线DICE应用在MovieLens and Netflix，对不同的骨干进行评估，以评估其泛化能力。我们采用了最先进的图形模型LightGCN [15]，，一个神经模型NeuMF [16]，和另一个图模型NGCF [35]作为不同的骨干。表3中的结果验证了CPR在这些骨干上始终优于BPR和DICE。例如，在MovieLens上，CPR比DICE表现得好7.9%、26.4%和10.4%的w.r.t.NDCG@20，分别在LightGCN，NeuMF和NGCF上。

5.4.2不同程度的偏差。我们还利用不同偏差程度的训练数据来评估CPR的泛化能力。我们用概率𝑝𝑠（𝑢，𝑖）∝𝑑𝑖𝜃采样70%的训练集，其中，𝑑𝑖是训练集中的项目学位，和𝜃分别设置为0.5和-0.5。当𝜃=为0.5时，采样训练集与原始训练集相比的偏差被放大；当𝜃=−值为0.5时，偏差减小。表4显示，CPR始终优于最佳基线DICE，w.r.t.改善率约为10%和14%NDCG@20在电影镜头和网飞上，分别使用两个采样训练集（𝜃= 0.5和𝜃=−0.5）。

5.5 Composition of Samples

我们比较了不同样本组成的CPR的性能，即式（14）中不同的𝑘值。我们首先将𝑘固定为单个值：𝑘=1、𝑘=2或𝑘=3，并调优其他超参数，以获得在𝑘的每个值下的最佳性能。图5中的虚线显示，召回率的值随着𝑘的增加而减少，但没什么——𝑘=4下的性能仍然优于表2中的所有基线。

正如我们在3.3节中讨论的，性能下降可能是由于较大的𝑘带来的训练的不灵活性。接下来，我们设置了𝑘= 2,3。我们从[1,2,3,4,5,6]中选择D2和D3的采样比，并在每个采样比的值下调整其他超参数。结果在图5中用实线表示。𝑘= 2,3下的性能优于𝑘=2下的性能，采样比通常在3左右，说明与使用单一类型的样本相比，组合使用不同类型的样本可以获得更好的结果。

6 RELATED WORK

一般来说，对内隐反馈的无偏见推荐有三个研究方向。在这里，我们回顾了其中的每一个问题。

6.0.1域自适应。一些研究利用少量的无偏数据作为目标域来指导对有偏源数据的训练。例如，CausE [5]通过最小化嵌入与在无偏数据上学习到的另一个嵌入的距离来纠正有偏嵌入。KDCRec [24]使用知识蒸馏将从有偏数据中获得的知识转移到无偏数据的建模中。然而，由于无偏数据通常很少见，它们的性能在实际场景中是有限的。为了避免使用无偏数据，ESAM [10]将已显示项和未显示项分别视为源域和目标域，并使它们的协方差矩阵之间的距离最小化。然而，领域自适应方法经常遭受领域特定信息的丢失——从有偏数据中学习到的一些重要项目特征在与无偏数据中的特征对齐时可能会丢失。

6.0.2反事实学习。反事实学习方法利用因果图来处理项目流行程度对推荐的影响。DICE [44]为每个用户和项目使用两个独立的嵌入，分别建模用户-项目相关性和暴露机制的因果效应，通过使用特定原因的数据进行培训。MACR [37]和CR [34]通过因果推理消除了项目属性对预测分数的直接影响。DIB [25]和PDA [43]都消除了训练过程中混淆的流行度偏差，但PDA [43]进一步将未来的流行度注入到推理期间的分数中。与我们提出的专注于构建无偏损失函数的方法不同，这些方法从不同的角度处理流行偏差——它们分析偏差和观察数据之间的因果效应，然后相应地应用因果操作。

6.0.3逆倾向评分（IPS）。IPS是推荐系统[22,31]中流行的一种去偏方法，最近在隐式推荐设置中进行了探索。Rel-MF [30]是第一种设计用于隐式反馈的IPS方法，它通过估计的项目暴露概率对点态损失进行重新加权，以获得期望无偏损失函数。随后，提出了UBPR [29]将Rel-MF中的点态模型扩展到成对版本。UEBPR [12]和DU [21]分别引入了基于邻域的可解释性和未点击的数据重新加权。自动去偏置[6]将IPS与数据计算相结合，并采用元学习算法来学习一个小的统一数据上的最优去偏置配置。这些IPS方法主要有两个缺点：估计倾向得分的困难和重加权损失的方差高。

7 CONCLUSION AND FUTURE WORK

在这项工作中，我们从一个新的角度重新审视常用的点态和成对损失函数，并指出它们在接近用户偏好的正确排名时是有偏差的。在假设暴露概率可以因式分解为用户倾向、项目倾向和用户-项目相关性的情况下，我们将传统损失函数中的偏差归因于用户/项目倾向。然后，我们提出了一个新的损失，CPR，其中用户/项目倾向的影响被精心选择的用户-项目对的组合所抵消，从而接近用户偏好的无偏排名。实验结果表明，CPR在多个主干模型上取得了较好的去偏性能。

这项初步的工作揭示了在不了解暴露机制的情况下，在一个温和的假设的帮助下，减轻了流行程度的偏差。CPR的一个局限性是，在一个样本中进行更多的互动会给训练带来不灵活性，这使得我们无法同时使用更多类型的样本来进一步提高推荐的准确性。我们希望在今后的工作中能够解决这一问题。另一个限制是，所提出的对暴露概率的假设可能不能准确地反映真实的暴露机制。我们希望在今后的工作中提出一个更普遍的假设。此外，我们希望将CPR扩展到其他场景，如探索其缓解群体公平偏见[4]的能力，并将其与列表排名[13]或图形学习[36,38,40]相结合。