这里写目录标题
Causal Intervention for Leveraging Popularity Bias in Recommendation(在推荐中利用受欢迎度偏差的因果干预)
用的数据集来源:Kwai(快手)、豆瓣、腾讯
摘要
1,流行度偏差问题:马太效应,流行度的物品更流行,不流行的物品不流行。
那么何为流行商品呢?
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3ghz7Sav-1631591308813)(E:\bobo\source_posts\Causal-Intervention-for-leveraging-Popularity-Bias-in-Reommendation\yin1.png)]
2,因果推断:
因果推断的核心思想在于反事实推理counterfactual reasoning,即在我们观测到X和Y的情况下,推理如果当时没有做X,Y’是什么。
因果推断的目的是要判断因果性,即计算因果效应(有无X的情况下Y值的变化量)。在进行反事实推理后,可得出因果效应e = |Y - Y’|,进而判断因果性。
实际上,对于一个对象,我们永远只能观察到Y和Y’的其中一个,因果推断所做的就是从已有数据中估计因果效应,所以我认为因果推断的本质是,对因果效应的估计。
在推荐系统中考虑流行偏倚无疑是至关重要的,现有的工作主要消除了倾向性的倾向性无偏学习或因果嵌入。然而,我们认为数据中并非所有的偏差都是坏的,即。E一些商品由于其更好的内在质量而更受欢迎。盲目追求无偏学习可能会去除数据中的有益模式,降低推荐准确性和用户满意度。
本文研究问题:如何平衡流行偏见来提高推荐的准确性。
关键在于两个方面:如何在训练过程中消除流行偏见的不良影响,以及如何在产生top-k的推理阶段注入期望的流行偏见建议。这对建议生成过程的因果机制提出了质疑。沿着这条线,我们发现**项目受欢迎程度在暴露项目和观察到的交互之间起着信息传递的作用,导致了偏差放大的不良影响。为了实现我们的目标,我们提出了一种新的建议训练和推理范式,称为人口偏见去发现和调整(PDA)。它消除了模型训练中混淆的流行度偏差,并通过因果干预调整推荐分数与期望的流行度偏差。**我们展示了潜在因素模型的新范式,并对来自快手、豆瓣和腾讯的三个真实数据集进行了广泛的实验。实证研究表明,解构训练有助于发现用户的真实兴趣,带有人气偏差的推理调整可以进一步提高推荐的准确性。
何为解构训练?
1,Introduction
推荐系统中考虑流行度偏倚问题是必要的。
一方面,用户项目交互数据通常在项目受欢迎程度上呈现长尾分布— 一个新的项目占据了大部分交互,而大多数项目受到的关注相对较少。另一方面,在这种长尾数据上训练的推荐人模型不仅继承了偏差,而且放大了偏差,使得热门项目占据了推荐的首位。更糟糕的是,推荐系统的反馈回路生态进一步加剧了这种马太效应,导致了臭名昭著的问题,如回声室和过滤器气泡。
反馈:显隐式反馈
回声室:通过大量同质行为或内容形成回声室效应,水军的实际目的是对目标商品起到宣传作用。
现有的人气偏差感知推荐工作主要进行无偏学习或排名调整,可分为:
反向倾向评分(IPS),通过重新加权模型训练的交互示例,将数据分布调整为均匀。虽然IPS方法具有良好的理论基础,但由于难以估计倾向和高模型方差,它们在实践中难以很好地工作。
因果嵌入,使用无偏差统一数据指导模型学习无偏差嵌入,迫使模型放弃项目流行度。然而,获得这种统一的数据需要向用户随机公开项目,这有损害用户体验的风险。因此,数据通常规模较小,使得学习不太稳定。
排名调整,在推荐列表上执行事后重新排名,或在培训上执行模型正规化。这两种方法都是启发式设计虽增加了不太受欢迎的项目的分数,但缺乏有效性的理论基础。
**我们认为推荐系统不应该消除流行偏见的影响,而应该平衡流行偏见。**全盘否定流行偏见也会造成关键数据的一种丢失,造成真正的好商品被压制。此外,一些平台需要在系统中引入期望的偏差,例如。推广未来可能流行的商品。这项工作的目的是填补研究空白,有效地利用流行偏见,以提高推荐的准确性。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qyILi138-1631591308816)(E:\bobo\source_posts\Causal-Intervention-for-leveraging-Popularity-Bias-in-Reommendation\yin2.png)]
为了了解项目受欢迎程度如何影响推荐过程,我们首先使用因果图的语言进行定性分析。图1(a)说明了传统方法主要执行用户项匹配来预测亲和力分数:u(用户节点)和 I(项目节点)是原因,以及C是表示相互作用概率的效应节点。一个例子是流行的潜在因素模型,该模型将预测作为用户嵌入和项目嵌入之间的内积。由于模型形成预测的方式意味着它假设标记数据是如何生成的,因此该因果图也可以解释观察到的交互数据的假设生成过程。项目流行度虽然对数据生成过程有重要影响,但这种粗粒度建模方法并没有明确考虑到这一点。
因果图:用图解的方法表示输入的各种组合关系,写出判定表,从而设计相应的测试用例。