反事实推荐算法|利用个人受欢迎程度消除推荐偏差

1212反事实推荐算法|利用个人受欢迎程度消除推荐偏差1212

【摘要】全局流行度 (GP) 偏差是指热门商品被推荐的频率远高于应有的频率,这违背了提供个性化推荐的目标,并且损害了用户体验和推荐准确性。已经提出了许多方法来减少 GP 偏差,但它们都没有注意到 GP 的根本问题,即它从 \textit{全局} 角度考虑流行度,并且使用一组流行商品,因此无法捕捉个人用户的兴趣。因此,我们提出了一个用户感知版本的商品流行度,称为 \textit{个人流行度} (PP),它通过考虑具有相似兴趣的用户来为每个用户识别不同的流行商品。由于 PP 可以模拟个人用户的偏好,因此它自然有助于产生个性化推荐并减轻 GP 偏差。为了将 PP 集成到推荐中,我们设计了一个通用的 \textit{个人流行度感知反事实} (PPAC) 框架,它可以轻松适应现有的推荐模型。具体来说,PPAC 认识到 PP 和 GP 对推荐有直接和间接的影响,并使用反事实推理技术控制直接影响,以实现无偏推荐。

原文:Debiasing Recommendation with Personal Popularity
地址:https://arxiv.org/html/2402.07425v2
代码:https://github.com/Stevenn9981/PPAC
出版:WWW '24
机构: The University of Hong Kong, Southern University of Science and Technology

更多文章解读,欢迎关注公众号“码农的科研笔记”

1 研究问题

本文研究的核心问题是: 如何利用个性化热门度(personal popularity)来减轻推荐系统中的全局热门偏差(global popularity bias)。

假设Alice平时喜欢看一些小众的科幻电影,比如《月球》、《源代码》等。但当她打开视频网站时,推荐系统往往会给她推荐一些全局最流行的电影,如《泰坦尼克号》、《阿凡达》等。虽然这些电影在全局用户中很受欢迎,但不太符合Alice个人的口味。如果推荐系统能根据与Alice兴趣相似的用户群体来判断哪些电影更热门,可能会给出更个性化的推荐。

本文研究问题的特点和现有方法面临的挑战主要体现在以下几个方面:

  • 现有的全局热门度使用单一的流行商品集合,无法捕捉不同用户的个性化兴趣。这导致给不同用户的推荐趋于同质化,产生全局热门偏差。

  • 如何定义和度量个性化热门度,使其能有效反映每个用户的独特偏好?现有研究主要关注全局热门度,很少探讨个性化热门度的概念和计算方法。

  • 如何将个性化热门度整合到推荐模型中,并与全局热门度形成互补,从而减轻偏差、提升推荐质量?现有的去偏方法大多只考虑调节全局热门度的影响,没有系统性地纳入个性化热门度。

针对这些挑战,本文提出了一种基于反事实推断的"个性化热门度感知型去偏框架(PPAC)":

PPAC框架的核心是将个性化热门度(Personal Popularity, PP)和全局热门度(Global Popularity, GP)共同纳入因果图模型,并通过反事实推断来调节它们对推荐结果的直接影响。具体而言,对每个用户,PPAC根据兴趣相似的用户群体来计算每个商品的PP值。PP反映了商品在相似用户中的受欢迎程度,体现了用户个性化的偏好。在构建因果图时,PPAC假设PP和GP都能直接影响用户对商品的偏好打分。这一假设符合现实:人们往往既会关注全局的热门趋势,也会参考周围朋友的意见。最后,PPAC利用代理变量将PP和GP的效应统一为一个变量,并通过反事实推断去估计并调节其对打分的直接影响。这一思路巧妙地规避了分别处理两个变量的复杂性。总的来说,PPAC犹如一位睿智的"朋友圈分析师",既关注全局的流行度,又兼顾你身边朋友的口味,努力为你推荐既热门又对胃口的物品。通过因果推理寻找平衡点,它就像在说:"我知道这部电影全球票房很高,但考虑到你和朋友的独特品位,我觉得你可能会更喜欢这部小众佳作。"

2 研究方法

2.1 个人流行度

论文提出了一种新的项目流行度概念,称为个人流行度(Personal Popularity, PP)。给定用户和项目,PP的定义为:

其中,表示与用户兴趣相似的个用户集合,表示在中与项目有交互的用户集合。 与全局流行度(Global Popularity, GP)相比,PP考虑了个人用户的兴趣,并允许不同用户拥有不同的流行项目集。例如,假设有两个项目和在所有用户中同样受欢迎(即),但是项目在与用户兴趣相似的用户中更受欢迎(即)。这表明PP能够更好地捕捉用户的个性化偏好。

2.2 PPAC框架

论文提出了个人流行感知反事实(Personal Popularity Aware Counterfactual, PPAC)框架来整合PP和GP,从而实现推荐去偏。PPAC的总体思路可以通过因果图来说明。在真实世界中,PP和GP都可以通过路径和直接影响预测分数。为了减轻GP偏差,PPAC引入一个代理变量,将PP和GP结合起来,并利用反事实推理技术来估计和调整对的直接影响。这里的反事实推理是指想象一个反事实世界,其中某些变量被赋予参考值,并估计这些变量如何影响目标变量。

2.3 模型设计

为了实例化PPAC框架,论文设计了几个关键组件来估计反事实世界中的预测分数。 首先,的估计过程为:

其中表示将PP和GP结合的的估计值,表示需要去偏的基础推荐模型。 然后,由于表示一个与具体用户和项目无关的常数,因此可以直接忽略它。 最后,的估计为:

其中和分别为PP和GP的可调权重,和为在训练集上观察到的PP和GP值。 图1给出了PPAC的训练和推理过程示意图。可以看到,由于训练集是在真实世界的因果图下产生的,其中所有因果效应都没有被调节,因此训练阶段使用公式(11)来估计用户-项目交互概率。而在推理阶段,PPAC通过反事实推理调整的直接效应,因此采用公式(15)进行推荐。

2.4 训练和推理

PPAC的训练过程主要包括三个部分:对基础推荐模型、PP估计模型和GP估计模型的训练。 对于的训练,论文采用BPR loss:

其中为训练集,为一个训练样本,的计算如公式(11)所示。 对于和的训练,论文将其看作回归任务,并采用MSE loss:

最终的损失函数为。

在推理阶段,PPAC通过公式(15)进行推荐:

其中,和为PP和GP的可调权重,用于放大PP效应和降低GP效应,从而更好地消除GP偏差并准确预测用户兴趣。 第四步、实验部分详细撰写:

4 实验

4.1 实验场景介绍

该论文提出了一个考虑个性化流行度(Personal Popularity, PP)的因果推理框架PPAC,用于缓解推荐系统中的全局流行度偏差(Global Popularity Bias)问题。实验主要评估PPAC在不同数据集和基础模型上的性能表现,以及验证其去偏能力。

4.2 实验设置

  • Datasets: 实验在3个公开数据集MovieLens-1M、Gowalla、Yelp2018上进行,表1给出了这些数据集的统计信息。

  • Baseline: 实验中共比较了10个基准方法,包括基础模型(MF、NCF、LightGCN),基于排序的方法(MostPop、MostPPop),以及7个现有的去偏方法(IPS、IPS-C、LapDQ、INRS、DICE、PDA、MACR)。

  • Implementation details:

    • 所有模型的用户和物品嵌入维度均设为64。

    • 图神经网络层数设为3。

    • 学习率为0.01,训练批大小为8092。

    • PPAC中PP系数γ默认为256,GP系数β默认为-128,相似用户数k默认为30。

    • 回归损失权重α为0.1,L2正则化系数λ为1e-4。

  • metric:

    • 采用了Recall@50和NDCG@50两个常用指标。

    • 训练集随机划分10%作为验证集,另外10%作为测试集,剩余部分用于训练。

    • 使用all-ranking协议进行评估。

4.3 实验结果

实验一、PPAC与基准方法的性能对比

目的: 评估PPAC在不同数据集和基础模型上相比其他基准方法的性能表现。

涉及图表: 表2

实验细节概述:在3个数据集上分别以MF、NCF和LightGCN为基础模型,比较PPAC与10个基准方法的Recall@50和NDCG@50结果。

结果:

  • PPAC在所有数据集、指标和基础模型上始终优于所有基准方法。与最佳基准相比,Recall和NDCG的提升最高可达46.8%和61.9%。

  • 作者提出的MostPPop方法通常排名第二,表明个性化流行度PP非常有效,优于全局流行度GP。

  • PPAC在MF和NCF上的改进通常大于LightGCN,因为LightGCN本身效果已经很好,提升空间较小。在MovieLens-1M上的改进小于另外两个大数据集。

实验二、PPAC关键组件的消融实验

目的: 验证PPAC中因果推理(CI)、个性化流行度(PP)、全局流行度(GP)等关键组件的有效性。

涉及图表: 表3、表4

实验细节概述:设计了3个PPAC变体,分别移除CI、PP和GP组件,将它们与原始基础模型和完整的PPAC进行比较。另外还比较了在不同阶段使用观测值和预测值的影响。

结果:

  • PPAC始终优于所有变体,说明论文提出的各种估计和设计都是正确有效的。

  • 使用CI的变体优于基础模型,突出了因果推理的重要性。

  • 移除PP通常比移除GP造成更大的性能下降,表明PP比GP更有助于去偏。

  • 在因果效应估计时同时使用观测值和预测值的做法是有益的。

实验三、PPAC的去偏能力分析

目的: 考察PPAC在缓解全局流行度偏差方面的能力。

涉及图表: 图7

实验细节概述:将物品按照训练集中的交互次数分组,统计每组物品的平均推荐频率和召回率。

结果:

  • 与基础模型和MACR相比,PPAC降低了推荐最全局流行物品的频率,更好地缓解了全局流行度偏差。

  • PPAC在所有物品组上的召回率都最高,表明其更好地匹配了用户的真实兴趣。

  • 最不流行的物品组召回率提升最大,获得了更多推荐机会,说明PPAC有效避免了仅根据全局流行度推荐物品的问题。

实验四、超参数的影响

目的: 研究PP权重γ、GP权重β、相似用户数量k等超参数对模型性能的影响。

涉及图表: 图8

实验细节概述:固定其他超参数,分别改变γ、β、k的取值,观察Recall@50以及推荐列表与PP/GP排序的相关性变化趋势。

结果:

  • γ和β存在最优值,表明因果推理调节PP和GP效应至关重要。

  • 推荐列表与PP或GP排序的相关性随对应的权重增加而增大,说明因果推理确实有效。

  • 相似用户数量k也存在最优值,过大或过小都会降低准确率。

4 总结后记

本论文针对推荐系统中存在的全局流行度偏差(GP bias)问题,提出了一种新的衡量物品流行度的指标--个性化流行度(Personal Popularity,简称PP)。不同于全局流行度(GP)为所有用户使用同一组流行物品,PP能够为每个用户识别不同的流行物品集合,更好地捕捉用户的个性化兴趣,从而有助于生成个性化推荐结果并缓解GP偏差。此外,作者设计了一个通用的个性化流行度感知反事实框架(PPAC),通过因果推断技术控制GP和PP对推荐结果的直接影响,可方便地适配于现有的各类推荐模型中。实验结果表明,PPAC能够显著优于现有的推荐去偏方法。

疑惑和想法:

  1. 除了协同过滤场景,PP的思想是否可以拓展到其他类型的推荐场景,如内容推荐、序列推荐等?

  2. 在计算PP时是否可以考虑更多用户行为的时间动态性?比如为最近的交互行为赋予更高权重。

  3. 现有工作仅考虑了PP和GP,是否存在其他形式的流行度偏差需要考虑?如何统一建模?

可借鉴的方法点:

  1. 针对每个用户定义一组"流行物品"的思想可以用于改进其他tipos偏差,如conformity bias等。

  2. 将因果推断与推荐模型相结合并构建反事实学习框架的思路值得借鉴,可用于消除模型中的其他偏差。

  3. 通过估计和控制敏感变量对结果的直接效应来实现去偏,这种因果推断范式可广泛用于其他任务。

  • 18
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值