Be Causal: De-biasing Social Network Confounding in Recommendation
abstract
前提知识:
MNAR、MAR、MCAR区别:MCAR表示缺失是完全随机的,MAR表示在给定观测数据的情况下缺失是随机的,而MNAR表示缺失是非随机的,可能与未观测到的数据或缺失的值本身有关。
- Missing Completely at Random (MCAR):MCAR是处理缺失数据最理想的情况。
- 数据完全随机缺失。
- 缺失与观测值无关,也与未观测的数据无关。
- 缺失的概率不受任何变量的影响,是完全随机的。
- Missing at Random (MAR):MAR的情况下,通过观测数据的分析可以在某些程度上忽略缺失的机制。
- 缺失随机缺失。
- 缺失的概率可能与观测到的变量有关,但与未观测到的变量无关。
- 在给定观测数据的情况下,缺失的概率是随机的。
- Missing Not at Random (MNAR):处理MNAR是相对较为复杂的,因为需要对未观测到的数据进行建模。
- 缺失非随机缺失。
- 缺失的概率与未观测到的数据或者缺失的值本身有关。
- 缺失数据的机制是非随机的,可能与未观测的特征或者缺失的数值有关。
摘要:在推荐系统中,missing-not-at-random(MNAR)问题的存在导致了选择偏差问题,最终降低了推荐性能。解决MNAR的一种常见做法是从“曝光”角度来处理缺失条目,即建模物品如何向用户暴露。大多数现有方法使用启发式模型或对观察到的评分进行重新加权策略,来模拟Missing at random的场景。然而,从因果关系的角度揭示评分是如何缺失的研究很少。为了弥合这一差距,,作者根据因果推断中的混淆分析,提出了一种名为DENC(De-bias Network Confounding in Recommendation)的无偏且健壮的方法。总体上,DENC从内在因素(例如,潜在用户或物品因素)和辅助网络的角度提供了关于MNAR的因果分析。DENC中提出的曝光模型可以同时控制社交网络混淆并保留观察到的曝光信息。作者还通过平衡表示学习开发了一个去混淆模型,以保留主要的用户和物品特征,从而使DENC在评分预测上具有很好的泛化性能。
方法论
-
Notations:
Y ∈ R m × n = [ y ⋅ u i ] Y \in R^{m\times n} = [\overset{\cdot}{y}_{ui} ] Y∈Rm×n=[y⋅ui]:评分矩阵Y描述m个用户对n个物品的数值评分
U = { u 1 , u 2 , ⋯ , u m } U = \{u_1,u_2,\cdots,u_m\} U={ u1,u2,⋯,um}是用户集合
I = { i 1 , i 2 , ⋯ , i n } I = \{i_1,i_2,\cdots,i_n\} I={ i1,i2,⋯,in}是物品集合
a u i ∈ { 0 , 1 } a_{ui} \in\{0,1\} aui∈{ 0,1}:表示对于用户-物品对u-i,用户u是否已经暴露于物品i。
y u i y_{ui} yui:用户u对物品i的评分
-
A Causal Inference Perpective
causal view for recommendation:对于每个user-item对,都会有一个01曝光变量 a u i a_{ui} aui代表用户是否暴露于物品。为此有两种潜在的评分结果 y u i ( 0 ) y_{ui}(0) yui(0)、 y u i ( 1 ) y_{ui}(1) yui(1).推荐系统的目标是估计所有用户看过所有电影的评分也就是估计 y u i ( 1 ) y_{ui}(1) yui(1)对于所有user和item。
我们可以直接获得当 a u i = 1 a_{ui} = 1 aui=1时,也就是用户u曝光于物品i时观察到的评分结果 y u i ( 1 ) y_{ui}(1) yui(1)。作者关注的是当设置曝光变量从0变为1时,那些没有被观察到的评分 y u i ( 0 ) y_{ui}(0) yui(0)会发生什么。在作者的设置中,来自用户之间社交网络的混淆因子被视为影响曝光 a u i a_{ui} aui和结果 y u i y_{ui} yui的共同原因。最终的目标是解耦观察到的评分和社交网络中的潜在因素,如下图所示。下图背后的直觉是观察到的评分结果是由固有因素和混淆因素共同生成的。固有因素指的是用户偏好和物品固有属性,而辅助因素则是来自社交网络的混淆因素。通过解耦导致观察到的评分的决定因素,我们可以将效应分开,从而从混淆因素和曝光的选择偏差中独立地考虑,确保获得一个具有卓越泛化能力的无偏评分估计器。
根据上图中的因果图,作者设计了包含下图中三个决定因素的DENC方法。具体地来说,每个组件相应地对应于图中的三个特定因素:社交网络混淆因子,曝光模型和去混淆模型,它们共同决定了评分结果。
-
Exposure Model
3.1 Social Network Confounder
为了控制由外部社会网络引起的选择偏差,作者提出了一个混杂表征模型,该模型量化了影响暴露和评级结果的常见偏差因素。
设 G G G表示用户U之间得社会关系图,边表示用户之间存在着社交关系。作者采用node2vec方法,从社交网络提供的多样连接性中学习网络嵌入。具体地来说,对于每个源用户u,node2vec通过一种采样生成节点u的网络邻居 N s ( u ) ⊂ G N_s(u) \subset G Ns(u)⊂G,以广度优先采样和深度优先采样的方式来探索其邻域。用户u的最终表示 Z u Z_u Zu可以通过最小化保留网络邻域 N s ( u ) N_s(u) Ns(u)的负对数似然估计来学习。node2vec算法原理参考:https://zhuanlan.zhihu.com/p/56542707设 Z ( u ) Z(u) Z(u)是将顶点u映射为embedding向量的映射函数,对于图中每个顶点u,定义 N s ( u ) N_s(u) Ns(u)为通过采样S策略采样出的顶点u 的近邻顶点集合。 node2vec优化的目标是给定每个顶点条件下,令其近邻顶点(如何定义近邻顶点很重要)出现的概率最大。为了将上述最优化问题可解,文章提出两个假设:
- 条件性独立性假设:假设给定源顶点下,其近邻顶点出现的概率与近邻集合中其余顶点无关。 P ( N s ( u ) ∣ Z ( u ) ) = ∏ n i ∈ N s ( u ) P ( n i ∣ Z ( u ) ) P(N_s(u)|Z(u)) = \prod_{n_i\in N_s(u)} P(n_i|Z(u)) P(Ns(u)∣Z(u))=∏ni∈Ns(u)P(ni∣Z(u))
- 特征空间对称性假设:这里是说一个顶点作为源顶点和作为近邻顶点的时候共享同一套embedding向量。在这个假设下,条件概率公式可表示为: P ( n i ∣ Z u ) = exp Z ( n i ) Z ( u ) ∑ v ∈ G exp Z ( v ) Z ( u ) P(n_i|Z_u) = \frac{\exp Z(n_i)Z(u)}{\sum_{v \in G}\exp Z(v)Z(u)} P(ni∣Zu)=∑v∈GexpZ(v)Z(u)expZ(ni)Z(u)
经过整理,最终的损失函数如下:
L z = − ∑ u ∈ G l o g P ( N S ( u ) ∣ Z u ) = ∑ u ∈ G [ l o g ∑ v ∈ G e x p ( Z v ⋅ Z u ) − ∑ u i ∈ N S ( u ) Z u i ⋅ Z u ] (1) \begin{align} \mathcal{L}_z &= - \sum_{u \in G}{log P(N_S(u)|Z_u)} \\ & =\sum_{u \in G}{[log\sum_{v\in G}{exp(Z_v \cdot Z_u) - \sum_{u_i \in N_S(u)}{Z_{u_i}\cdot Z_u} }]} \end{align} \tag{1} Lz=−u∈G∑logP(NS(u)∣Zu)=u∈G∑