因果推荐|因果干预在多行为推荐中的公平性研究

 代码链接:https://anonymous.4open.science/r/MBD-DCBC/.

论文链接:https://arxiv.org/abs/2209.04589

论文来源:IEEE Transactions on Computational Social Systems

关键词:人气偏差、因果干预、多行为推荐、公平性

最近一直在看因果推荐,这也是我目前看到的第一篇针对多行为的因果推荐文章,如果各位还有读过多行为因果推荐的文章,可以评论一下~~而且这篇论文也是很新的一篇文章,这篇文章开源了,所以代码阅读正在路上。

1 动机

推荐系统广泛应用于电子商务和视频流媒体等平台上,通过学习用户的兴趣偏好提供个性化的信息过滤。然而,现有的推荐系统在学习用户兴趣时,通常依赖于用户的多种行为(例如点击和点击后的行为如点赞和收藏),但这些行为不可避免地展示出流行度偏差(还是之前说过的问题,推荐系统的数据是观察性的,不是实验性的),导致以下不公平问题:

  1. 质量相似的物品中,更受欢迎的物品获得了更多曝光,如下图左所示。
  2. 低质量但高流行度的物品可能获得更多的曝光,如下图右所示。

现有的研究主要致力于减轻流行度偏差,通常忽略了物品质量的影响。这些方法可能盲目地消除偏差,而没有充分考虑多种用户行为之间的关系。然而用户行为(例如转化率)之间的关系实际上反映了物品的质量(例如针对高质量商品时,用户点击后更有可能进行进一步的交互,如点赞、收藏甚至购买。针对低质量商品时可能不会有后续的行为)。


2 贡献

作者发现:1)项目人气是曝光项目与用户点击后互动之间的混杂因素,导致曝光不公平;2)一些隐藏的混杂因素(如物品生产者的声誉)会影响物品的受欢迎程度和质量,从而导致质量不公平。

因此提出并系统性地研究了多行为推荐中的流行度偏差及其导致的不公平现象。通过构建因果图和利用因果干预技术,提出了一个多行为去偏框架来缓解由流行度偏差引起的不公平。在模型训练过程中考虑流行度和质量的双重影响,通过后门调整和因果干预,在推理阶段有效去除流行度的负面影响。


3 因果图

因果节点:

  • U(用户 ):表示用户。
  • I(物品 ):表示用户可见的物品。
  • C(点击 ):表示用户点击某个物品的概率。
  • L(点击后行为):表示用户在点击某个物品后进行进一步的多种行为(如点赞、收藏、购买)的概率。
  • Z(流行度):表示物品的流行度,通常通过物品的交互次数来衡量。
  • Q(质量):表示物品的质量,是一个隐变量,难以直接量化。作者通过点击后行为转化率来近似估计。
  • T(隐藏变量 ):表示一些未观察到的混杂因素,如物品生产者的声誉。 

分析:

  • 流行度 Z是一个混杂因素,影响了物品的曝光 I和用户的点击后行为 L。由于流行度高的物品更容易被推荐系统展示,用户点击后更有可能进行进一步的交互(从众偏差),这导致了曝光不公平的问题。路径为:I←Z→L(上图左的红色路径1)
  • 隐藏变量 T(如物品生产者的声誉)同时影响物品的流行度 Z 和质量 Q,导致了质量不公平的问题。一些低质量但高流行度的物品可能因为生产者的声誉而获得更多曝光。路径为:Q←T→Z→L(上图左的红色路径2)
  • 那么因此产生出了曝光不公平(质量相似的物品中,流行度更高的物品获得了更多的曝光)以及质量不公平(低质量但高流行度的物品获得了更多曝光,影响了用户的选择。

做法: 

  • 针对曝光不公平:使用后门调整来切断路径:I←Z→L,通过干预(do操作)消除流行度 Z对曝光 I的影响
  • 针对质量不公平:使用后门调整来切断路径:Q←T→Z→L,但是,由于质量 Q 和隐藏变量 T通常是未观察到的变量,直接干预它们是不可能的。但是,可以通过控制流行度 Z 来间接处理这个路径。通过利用点击后行为转化率作为物品质量的近似值,从而进行干预。

 


 4 模型

4.1 多行为推荐中的不公平的形式化定义

曝光不公平:计算物品的曝光概率来量化物品的曝光不公平,计算如下列公式所示:

其中V_j是排名列表中第j个项目的曝光概率,P_j是第i个项目在第j个位置被推荐的概率,作者认为具有相似质量的项目应该获得相似的曝光。因此,根据物品的质量将物品分成不同的组,然后根据不同的受欢迎程度将每个组分成子组。因此,可以测量这些子组之间的暴露差异来评估暴露公平性

质量不公平:使用项目的点击后行为的转换率来进行近似。首先估算各组的平均质量,然后使用不同组之间的暴露/质量差异来评估质量不公平,计算如下列公式所示:

 其中r_i为项目i的点击后转化率,Dl(G1, G2)描述了G1组和G2组之间的不公平程度。

4.2 模型

 

作者将下图左的因果图记为G,将图右的进行干预的因果图记为G’

在G上推导出如下表达式:

其中,5(a)为原始公式,对I和Q进行干预;在5(b)中第一个后门路径I←Z→L被do(I = I)阻塞,这减轻了暴露的不公平性。第二个后门路径Q←T→Z→L被do(Q = ri)阻断,减轻了质量不公平;基于贝叶斯定理,将公式简化得到了5(c);考虑到未点击的数据不会产生点击后行为,可以简化为5(d),并且由于G和G'在变量U, I, Z, Q上的先验概率相同,因此得到了5(e)

因此为了消除混杂因素的影响,需要考虑如何从数据中估计 P(L∣U,do(I),do(Q))。从推导出的表达式(5e)中,我们需要分别估计 P(L∣U,I,Q,Z,C=1) P(C=1∣U,I) --公式5(f)然后估计:∑Z​P(L∣U,I,Q,Z,C=1)P(C=1∣U,I)P(Z)

:用户和物品之间的点击概率(CTR),使用 fc 表示用户-物品匹配函数:

通过在历史点击数据 D上的交叉熵损失来实例化CTR损失:

:在用户U,项目I,物品质量Q,流行度Z以及点击率C固定的情况下,用户在点击物品后进行进一步行为的概率(即点击后转化率,CVR)

估计点击和转化率(CTCVR): 

通过交叉熵损失计算CTCVR损失: 

整体损失计算如下: 

因此估计干预概率  :

  • 训练阶段

    • 在训练阶段,模型会利用物品的流行度 Z 和质量 Q的影响来计算点击率(CTR)和点击后转化率(CVR)。
    • 训练损失函数包括CTR损失和CTCVR损失,通过最大化这些损失来优化模型参数。
  • 推理阶段

    • 在推理阶段,模型将流行度 Z 固定为一个常数,从而消除流行度对推荐结果的负面影响。
    • 计算最终的推荐分数时,仅使用点击率和物品质量信息。

 5 总结

MBD 提出了一种通过因果干预和多行为数据来缓解推荐系统中流行度偏差和不公平现象的方法:通过控制流行度变量来切断后门路径,并利用点击后转化率来近似物品质量,设计了基于点击率(CTR)和点击后转化率(CVR)的匹配函数,解决了由于流行度偏差和物品质量偏差导致的曝光不公平和质量不公平问题,同时显著提高了推荐系统的公平性和推荐结果的准确性。值得注意的是,MDR使用矩阵分解)来编码用户和物品的嵌入表征,没有使用例如GCN编码用户和项目的高阶连通性或者GRU或者Transformer来编码用户交互的时序信息。

因果去偏方法:

  • 训练阶段

    • 使用多行为数据来训练点击率(CTR)和点击后转化率(CVR)模型。
    • 利用点击后转化率来近似物品质量,通过贝叶斯推断和do演算来消除流行度的影响。
  • 推理阶段

    • 固定流行度为常数,从而在推荐过程中去除流行度对推荐结果的负面影响。
    • 通过估计 P(L∣U,do(I),do(Q)来确保推荐结果公平地反映物品质量。

数据集:快手和天猫

 值得注意的是,在MDR的多行为场景(点击后行为),只是用了一种行为,例如在天猫数据集中,点击后的行为是购买,而并非传统多行为推荐场景中的浏览、收藏、加入购物车、购买等行为。


  • 27
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值