Be Causal: De-biasing Social Network Confounding in Recommendation
abstract
前提知识:
MNAR、MAR、MCAR区别:MCAR表示缺失是完全随机的,MAR表示在给定观测数据的情况下缺失是随机的,而MNAR表示缺失是非随机的,可能与未观测到的数据或缺失的值本身有关。
- Missing Completely at Random (MCAR):MCAR是处理缺失数据最理想的情况。
- 数据完全随机缺失。
- 缺失与观测值无关,也与未观测的数据无关。
- 缺失的概率不受任何变量的影响,是完全随机的。
- Missing at Random (MAR):MAR的情况下,通过观测数据的分析可以在某些程度上忽略缺失的机制。
- 缺失随机缺失。
- 缺失的概率可能与观测到的变量有关,但与未观测到的变量无关。
- 在给定观测数据的情况下,缺失的概率是随机的。
- Missing Not at Random (MNAR):处理MNAR是相对较为复杂的,因为需要对未观测到的数据进行建模。
- 缺失非随机缺失。
- 缺失的概率与未观测到的数据或者缺失的值本身有关。
- 缺失数据的机制是非随机的,可能与未观测的特征或者缺失的数值有关。
摘要:在推荐系统中,missing-not-at-random(MNAR)问题的存在导致了选择偏差问题,最终降低了推荐性能。解决MNAR的一种常见做法是从“曝光”角度来处理缺失条目,即建模物品如何向用户暴露。大多数现有方法使用启发式模型或对观察到的评分进行重新加权策略,来模拟Missing at random的场景。然而,从因果关系的角度揭示评分是如何缺失的研究很少。为了弥合这一差距,,作者根据因果推断中的混淆分析,提出了一种名为DENC(De-bias Network Confounding in Recommendation)的无偏且健壮的方法。总体上,DENC从内在因素(例如,潜在用户或物品因素)和辅助网络的角度提供了关于MNAR的因果分析。DENC中提出的曝光模型可以同时控制社交网络混淆并保留观察到的曝光信息。作者还通过平衡表示学习开发了一个去混淆模型,以保留主要的用户和物品特征,从而使DENC在评分预测上具有很好的泛化性能。
方法论
-
Notations:
Y ∈ R m × n = [ y ⋅ u i ] Y \in R^{m\times n} = [\overset{\cdot}{y}_{ui} ] Y∈Rm×n=[y⋅ui]:评分矩阵Y描述m个用户对n个物品的数值评分
U = { u 1 , u 2 , ⋯ , u m } U = \{u_1,u_2,\cdots,u_m\} U={u1,u2,⋯,um}是用户集合
I = { i 1 , i 2 , ⋯ , i n } I = \{i_1,i_2,\cdots,i_n\} I={i1,i2,⋯,in}是物品集合
a u i ∈ { 0 , 1 } a_{ui} \in\{0,1\} aui∈{0,1}:表示对于用户-物品对u-i,用户u是否已经暴露于物品i。
y u i y_{ui} yui:用户u对物品i的评分
-
A Causal Inference Perpective
causal view for recommendation:对于每个user-item对,都会有一个01曝光变量 a u i a_{ui} aui代表用户是否暴露于物品。为此有两种潜在的评分结果 y u i ( 0 ) y_{ui}(0) yui(0)、 y u i ( 1 ) y_{ui}(1) yui(1).推荐系统的目标是估计所有用户看过所有电影的评分也就是估计 y u i ( 1 ) y_{ui}(1) yui(1)对于所有user和item。
我们可以直接获得当 a u i = 1 a_{ui} = 1 aui=1时,也就是用户u曝光于物品i时观察到的评分结果 y u i ( 1 ) y_{ui}(1) yui(1)。作者关注的是当设置曝光变量从0变为1时,那些没有被观察到的评分 y u i ( 0 ) y_{ui}(0) yui(0)会发生什么。在作者的设置中,来自用户之间社交网络的混淆因子被视为影响曝光 a u i a_{ui} aui和结果 y u i y_{ui} yui的共同原因。最终的目标是解耦观察到的评分和社交网络中的潜在因素,如下图所示。下图背后的直觉是观察到的评分结果是由固有因素和混淆因素共同生成的。固有因素指的是用户偏好和物品固有属性,而辅助因素则是来自社交网络的混淆因素。通过解耦导致观察到的评分的决定因素,我们可以将效应分开,从而从混淆因素和曝光的选择偏差中独立地考虑,确保获得一个具有卓越泛化能力的无偏评分估计器。
根据上图中的因果图,作者设计了包含下图中三个决定因素的DENC方法。具体地来说,每个组件相应地对应于图中的三个特定因素:社交网络混淆因子,曝光模型和去混淆模型,它们共同决定了评分结果。
-
Exposure Model
3.1 Social Network Confounder
为了控制由外部社会网络引起的选择偏差,作者提出了一个混杂表征模型,该模型量化了影响暴露和评级结果的常见偏差因素。
设 G G G表示用户U之间得社会关系图,边表示用户之间存在着社交关系。作者采用node2vec方法,从社交网络提供的多样连接性中学习网络嵌入。具体地来说,对于每个源用户u,node2vec通过一种采样生成节点u的网络邻居 N s ( u ) ⊂ G N_s(u) \subset G Ns(u)⊂G,以广度优先采样和深度优先采样的方式来探索其邻域。用户u的最终表示 Z u Z_u Zu可以通过最小化保留网络邻域 N s ( u ) N_s(u) Ns(u)的负对数似然估计来学习。node2vec算法原理参考:https://zhuanlan.zhihu.com/p/56542707设 Z ( u ) Z(u) Z(u)是将顶点u映射为embedding向量的映射函数,对于图中每个顶点u,定义 N s ( u ) N_s(u) Ns(u)为通过采样S策略采样出的顶点u 的近邻顶点集合。 node2vec优化的目标是给定每个顶点条件下,令其近邻顶点(如何定义近邻顶点很重要)出现的概率最大。为了将上述最优化问题可解,文章提出两个假设:
- 条件性独立性假设:假设给定源顶点下,其近邻顶点出现的概率与近邻集合中其余顶点无关。 P ( N s ( u ) ∣ Z ( u ) ) = ∏ n i ∈ N s ( u ) P ( n i ∣ Z ( u ) ) P(N_s(u)|Z(u)) = \prod_{n_i\in N_s(u)} P(n_i|Z(u)) P(Ns(u)∣Z(u))=∏ni∈Ns(u)P(ni∣Z(u))
- 特征空间对称性假设:这里是说一个顶点作为源顶点和作为近邻顶点的时候共享同一套embedding向量。在这个假设下,条件概率公式可表示为: P ( n i ∣ Z u ) = exp Z ( n i ) Z ( u ) ∑ v ∈ G exp Z ( v ) Z ( u ) P(n_i|Z_u) = \frac{\exp Z(n_i)Z(u)}{\sum_{v \in G}\exp Z(v)Z(u)} P(ni∣Zu)=∑v∈GexpZ(v)Z(u)expZ(ni)Z(u)
经过整理,最终的损失函数如下:
L z = − ∑ u ∈ G l o g P ( N S ( u ) ∣ Z u ) = ∑ u ∈ G [ l o g ∑ v ∈ G e x p ( Z v ⋅ Z u ) − ∑ u i ∈ N S ( u ) Z u i ⋅ Z u ] (1) \begin{align} \mathcal{L}_z &= - \sum_{u \in G}{log P(N_S(u)|Z_u)} \\ & =\sum_{u \in G}{[log\sum_{v\in G}{exp(Z_v \cdot Z_u) - \sum_{u_i \in N_S(u)}{Z_{u_i}\cdot Z_u} }]} \end{align} \tag{1} Lz=−u∈G∑logP(NS(u)∣Zu)=u∈G∑[logv∈G∑exp(Zv⋅Zu)−ui∈NS(u)∑Zui⋅Zu](1)3.2 Exposure Assignment Learning
在推荐场景下,曝光并不是随机分配的。社交网络中的用户通常通过社交网络表达自己的偏好,因此这将影响到他们朋友的曝光政策。在这一部分,为了描述评分中的缺失非随机(MNAR)模式,我们求助于因果推断来建立受社交网络影响的曝光机制。
首先,我们对二进制曝光变量 a u i a_{ui} aui 感兴趣,该变量定义了物品 $i 是否对用户 是否对用户 是否对用户 u 曝光 曝光 曝光a_{ui} = 1 或未曝光 或未曝光 或未曝光a_{ui} = 0$。基于从社交网络中学到的信息性混淆因素,我们提出了倾向性(propensity)的符号表示,以捕获曝光的因果推断语言。
Propensity:对于给定的观察到的评分 y u i ∈ rating y_{ui} \in \text{{rating}} yui∈rating 和混淆因子 Z u Z_u Zu ,用户-物品对 ( u , i ) (u, i) (u,i) 对应的曝光的倾向性定义如公式2:这表示在给定观察到的评分和用户的混淆因子的条件下,用户-物品对 ((u, i)) 曝光的概率。
π ( a u i ; Z u ) = P ( a u i = 1 ∣ y u i ∈ r a t i n g ; Z u ) (2) \pi(a_{ui};Z_u) = P(a_{ui} = 1|y_{ui} \in rating;Z_u)\tag{2} π(aui;Zu)=P(aui=1∣yui∈rating;Zu)(2)通过 a u i a_{ui} aui被分配为0或1的概率来建模曝光机制。其中O是观察到的评分集合。
P ( a u i ) = ∏ u , i P ( a u i ) = ∏ u , i ∈ O P ( a u i = 1 ) ∏ u , i ∉ O P ( a u i = ? ) (3) P(a_{ui}) = \prod_{u,i}P(a_{ui}) = \prod_{u,i \in O}P(a_{ui} = 1) \prod_{u,i \notin O}P(a_{ui} = ?)\tag{3} P(aui)=u,i∏P(aui)=u,i∈O∏P(aui=1)u,i∈/O∏P(aui=?)(3)
当 a u i = 1 a_{ui} = 1 aui=1 时,可能导致观察到的评分或未观察到的评分:1)对于由 y u i ∈ rating y_{ui} \in \text{{rating}} yui∈rating 表示的观察到的评分,我们确定知道物品 i i i 是被曝光的,即 a u i = 1 a_{ui} = 1 aui=1;2)未观察到的评分 y u i ∉ rating y_{ui} \notin \text{{rating}} yui∈/rating可能表示对曝光物品 a u i = 1 a_{ui} = 1 aui=1 的负反馈(即,用户不愿意给该物品评分)。基于这一点,根据式 (2),我们有公式4成立。
P ( a u i = 1 ) = P ( a u i = 1 , y u i ∈ r a t i n g ) + P ( a u i = 1 , y u i ∉ r a t i n g ) = π ( a u i ; Z u ) P ( y u i ∈ r a t i n g ) + W u i P ( y u i ∉ r a t i n g ) (4) \begin{align} P(a_{ui} = 1) &= P(a_{ui} = 1,y_{ui} \in rating) + P(a_{ui} = 1,y_{ui} \notin rating)\\ &= \pi(a_{ui};Z_u) P(y_{ui} \in rating) + W_{ui}P(y_{ui} \notin rating) \end{align}\tag{4} P(aui=1)=P(aui=1,yui∈rating)+P(aui=1,yui∈/rating)=π(aui;Zu)P(yui∈rating)+WuiP(yui∈/rating)(4)
这表示 a u i = 1 a_{ui} = 1 aui=1的概率可以由用户的混淆因子 Z u Z_u Zu 和是否观察到评分 y u i y_{ui} yui 来建模。其中, W u i = P ( a u i ∣ y u i ∉ r a t i n g ) W_{ui} = P(a_{ui} | y_{ui} \notin rating) Wui=P(aui∣yui∈/rating) 表示未观察到的评分 y u i y_{ui} yui 下曝光变量 a u i = 1 a_{ui} = 1 aui=1的概率
作者同时还认为位置的曝光变量 a u i a_{ui} aui满足如下的分布:
P ( a u i = ? ) = 1 − P ( a u i = 1 ) (5) P(a_{ui} = ?)= 1 - P(a_{ui} = 1) \tag{5} P(aui=?)=1−P(aui=1)(5)结合公式3、4、5,我们得到了整体评分数据的曝光分配,如下所示
P ( a u i ) = ∏ u , i ∈ O π ( a u i ; Z u ) ∏ u , i ∉ O ( 1 − W u i ) (6) P(a_{ui}) = \prod_{u,i \in O}\pi(a_{ui};Z_u)\prod_{u,i \notin O}(1-W_{ui}) \tag{6} P(aui)=u,i∈O∏π(aui;Zu)u,i∈/O∏(1−Wui)(6)根据大多数因果推断,对于 π ( a u i ; Z u ) \pi(a_{ui}; Z_u) π(aui;Zu) 的广泛采用的参数化是一个由 Θ = { W 0 , b 0 } \Theta = \{W_0, b_0\} Θ={W0,b0} 参数化的 logistic 回归网络,即:
π ( a u i ; Z u , Θ ) = I y ∈ rating ⋅ [ 1 + e − ( 2 a u i − 1 ) ( Z u ⊤ ⋅ W 0 + b 0 ) ] − 1 (7) \pi\left(a_{u i} ; Z_{u}, \Theta\right)=\mathbb{I}_{y \in \text { rating }} \cdot\left[1+e^{-\left(2 a_{u i}-1\right)\left(Z_{u}^{\top} \cdot W_{0}+b_{0}\right)}\right]^{-1}\tag{7} π(aui;Zu,Θ)=Iy∈ rating ⋅[1+e−(2aui−1)(Zu⊤⋅W0+b0)]−1(7)
其中:- π ( a u i ; Z u , Θ ) \pi(a_{ui}; Z_u, \Theta) π(aui;Zu,Θ) 是在给定混杂因素 Z u Z_u Zu和参数集 Θ = { W 0 , b 0 } \Theta = \{W_0, b_0\} Θ={W0,b0}的条件下,用户 u u u 对物品 i i i选择动作 a u i a_{ui} aui 的概率。
- I y ∈ rating \mathbb{I}_{y \in \text{rating}} Iy∈rating是指示函数,表示 y y y是否在评分范围内,在范围内才进行logistic函数。
- W 0 W_0 W0 是权重参数。
- b 0 b_0 b0是偏置参数。
与监督式学习类似,采用最小化负对数似然来进行优化。损失函数如下:
L a = ∑ u , i − l o g P ( a u i ; Z u , Θ ) (8) \mathcal{L}_a = \sum_{u,i}-log P(a_{ui};Z_u,\Theta)\tag{8} La=u,i∑−logP(aui;Zu,Θ)(8) -
Deconfounder Model
在传统的推荐系统中,通常通过最小化对观察到的评分的误差来学习用户和物品的潜在因子表示,例如矩阵分解。然而,由于存在选择偏差(selection bias),这样学得的表示未必能最小化对未观察到的评分的预测误差。作者提出学习一种平衡的表示,该表示与曝露分配无关,因此能够代表用户和物品的固有或不变特征。
inherent factors:
作者定义两个潜在向量 ( U ∈ R k d (U \in \mathbb{R}^{kd} (U∈Rkd 和 I ∈ R k d I \in \mathbb{R}^{kd} I∈Rkd 分别表示用户和物品的固有因素。回顾等式(6)中的 W u i W_{ui} Wui 的不同取值可以生成不同的曝露分配,用于观察到的评分数据。基于这个直觉,我们构建两种不同的曝露分配 a a a 和 a ^ \hat{a} a^ 对应于两种不同的 W u i W_{ui} Wui的设置。
Φ ( a ) = [ U 1 ( a ) , ⋯ , U M ( a ) , I 1 ( a ) , ⋯ , I M ( a ) ] \Phi(a) = [U_1^{(a)},\cdots,U_M^{(a)},I_1^{(a)},\cdots,I_M^{(a)}] Φ(a)=[U1(a),⋯,UM(a),I1(a),⋯,IM(a)]
Φ ( a ^ ) = [ U 1 ( a ^ ) , ⋯ , U M ( a ^ ) , I 1 ( a ^ ) , ⋯ , I M ( a ^ ) ] \Phi(\hat{a}) = [U_1^{(\hat{a})},\cdots,U_M^{(\hat{a})},I_1^{(\hat{a})},\cdots,I_M^{(\hat{a})}] Φ(a^)=[U1(a^),⋯,UM(a^),I1(a^),⋯,IM(a^)]
即使将曝露变量从0改变到1,用户和物品的固有因素也应当保持不变,反之亦然。这意味着 U ∈ R k d U \in \mathbb{R}^{kd} U∈Rkd 和 I ∈ R k d I \in \mathbb{R}^{kd} I∈Rkd应该与曝露分配无关,即 U ( a ) ⊥ ⊥ U ( a ^ ) U(a) \perp \!\!\! \perp U(\hat{a}) U(a)⊥⊥U(a^) 或 I ( a ) ⊥ ⊥ I ( a ^ ) I(a) \perp \!\!\! \perp I(\hat{a}) I(a)⊥⊥I(a^)。
因此,通过最小化 Φ ( a ) \Phi(a) Φ(a) 和 Φ ( a ^ ) \Phi(\hat{a}) Φ(a^) 之间的差异,确保学到的因素不包含有关曝露变量的信息,从而减少选择偏差。损失函数定义如下:
L d = d i s c ( ϕ ( a ) , ϕ ( a ^ ) ) (9) \mathcal{L}_d = disc(\phi(a),\phi(\hat{a}))\tag{9} Ld=disc(ϕ(a),ϕ(a^))(9)作者采用积分概率度量:Integral Probability Mertic(IPM)来衡量 Φ ( a ) \Phi(a) Φ(a) 和 Φ ( a ^ ) \Phi(\hat{a}) Φ(a^) 之间的差异。令概率分布 P = P ( Φ ( a ) ^ ) \mathbb{P} = P(\Phi_{\hat{(a)}}) P=P(Φ(a)^)、 Q = P ( Φ ( a ) ) \mathbb{Q} = P(\Phi_{(a)}) Q=P(Φ(a))。IPM通过将概率分布映射到函数空间中,并测量两个概率分布之间的函数差异来进行比较。定于如下:
I P M F ( P , Q ) = sup f ∈ F ∣ ∫ S f d P − ∫ S f d Q ∣ (10) IPM_{\mathcal{F}}(\mathbb{P},\mathbb{Q}) = \sup_{f \in \mathcal{F}}|\int_Sfd\mathbb{P} - \int_Sfd\mathbb{Q}| \tag{10} IPMF(P,Q)=f∈Fsup∣∫SfdP−∫SfdQ∣(10)
其中 F \mathbb{F} F是一组可测函数。IPM选择了在所有可测函数中具有最大差异的那个函数,然后通过比较这两个分布在该函数下的期望来量化它们之间的差异。具体选择的函数类别 可以因特定问题而异。常见的IPM包括Total Variation Distance、Wasserstein距离等。IPM的使用通常涉及到在不同的问题和应用场景中选择适当的函数类别。作者采用 F \mathbb{F} F 作为 1-Lipschitz 函数,使得 IPM 转化为 Wasserstein-1 距离,即:
W a s s ( P , Q ) = inf f ∈ F ∑ v ∈ c o l i ( Φ ( a ^ ) ) ∣ ∣ f ( v ) − v ∣ ∣ P ( v ) d v (11) Wass(\mathbb{P},\mathbb{Q}) = \inf_{f \in \mathcal{F}}\sum_{v \in col_i(\Phi_{(\hat{a})})}{||f(v) - v||\mathbb{P}(v)dv}\tag{11} Wass(P,Q)=f∈Finfv∈coli(Φ(a^))∑∣∣f(v)−v∣∣P(v)dv(11)
其中, v v v 是 Φ ( a ^ ) \Phi(\hat{a}) Φ(a^) 的第 i i i 列,而推进函数集合 F \mathbb{F} F 是所有满足 Q ( f ( v ) ) = P ( v ) Q(f(v)) = P(v) Q(f(v))=P(v) 的从 R d R^d Rd 到 R d R^d Rd 的函数。F = { f ∣ f : R d → R d s . t . Q ( f ( v ) ) = P ( v ) } \mathcal{F} = \{f|f:\mathbb{R}^d \to \mathbb{R}^d \ \ \ \ s.t.\mathbb{Q}(f(v)) = \mathbb{P}(v) \} F={f∣f:Rd→Rd s.t.Q(f(v))=P(v)}
这个式子的直观解释是,通过最小化函数 f f f 在表示空间上的变换,我们得到了 P \mathbb{P} P 和 Q \mathbb{Q} Q之间的 Wasserstein-1 距离。在这里, ∥ f ( v ) − v ∥ \|f(v) - v\| ∥f(v)−v∥ 是曝露和未曝露的用户-物品对之间的两两距离矩阵。通过在表示分布之间定义的差异中,我们将其作为 C ( Φ ) = ∥ f ( v ) − v ∥ C(\Phi) = \|f(v) - v\| C(Φ)=∥f(v)−v∥,并将在公式(9)中的损失函数重新定义为:
L d = inf γ ∈ ∏ ( P , Q ) E ( v , f ( v ) ) ∼ γ C ( Φ ) (12) \mathcal{L}_d = \inf_{\gamma \in \prod(\mathbb{P},\mathbb{Q})}\mathbb{E}_{(v,f(v))\sim \gamma}C(\Phi)\tag{12} Ld=γ∈∏(P,Q)infE(v,f(v))∼γC(Φ)(12)
-
Learning
5.1 Rating prediction:
在评分预测中,通过 deconfounder 模型得到最终的表示 U U U 和 I I I 后,使用 U ⊤ I U^\top I U⊤I 的内积作为固有因素来估计评分。如之前的因果结构所示,影响评分预测的另一个组成部分是社交网络混杂因素。将这些组件整合到推荐系统的一个简单方法是通过线性模型,具体如下:
y ^ u i = ∑ u , i ∈ O U T I + W u T Z u + ϵ u i , ϵ u i ∼ N ( 0 , 1 ) (13) \hat{y}_{ui} = \sum_{u,i \in O}U^TI + W_u^TZ_u + \epsilon_{ui},\ \ \ \epsilon_{ui}\sim \mathcal{N}(0,1)\tag{13} y^ui=u,i∈O∑UTI+WuTZu+ϵui, ϵui∼N(0,1)(13)其中:
- U U U 和 I I I 是通过 deconfounder 模型得到的用户和物品的最终表示。
- W u W_u Wu 是描述混杂因素 Z u Z_u Zu对评分的贡献程度的系数。
- Z u Z_u Zu 是社交网络混杂因素。
- ϵ u i \epsilon_{ui} ϵui 是服从均值为0、方差为1的正态分布的随机误差项。
为了定义对于有偏观测 y u i y_{ui} yui 的无偏损失函数,使用 IPS(Inverse Propensity Score)反倾向得分策略来用倾向得分对每个观测进行加权。倾向得分的直观解释是降低常见观测到的评分的权重,同时增加罕见评分的权重。
L y = 1 ∣ O ∣ ∑ u , i ∈ O ( y u i − y ^ u i ) 2 π ( a u i ; Z u ) (14) \mathcal{L}_y = \frac{1}{|O|}\sum_{u,i \in O}\frac{(y_{ui} - \hat{y}_{ui})^2}{\pi(a_{ui};Z_u)}\tag{14} Ly=∣O∣1u,i∈O∑π(aui;Zu)(yui−y^ui)2(14)
5.2 Optimization:最终的DENC模型的损失函数如下:
L = L y + λ a L a + λ z L z + λ d L d + R ( Ω ) (15) \mathcal{L} = \mathcal{L}_y + \lambda_a\mathcal{L}_a + \lambda_z\mathcal{L}_z + \lambda_d\mathcal{L}_d + \mathcal{R}(\Omega)\tag{15} L=Ly+λaLa+λzLz+λdLd+R(Ω)(15)
其中Ω表示可训练参数,R(·)为Ω上的平方𝑙2范数正则化项,以缓解过拟合问题。
实验
总结
针对评级推荐模型的MNAR问题进行了分析,从因果结构图的结构解释了造成偏差的原因。并采用解耦的手段来区分固有属性影响和混淆因素影响,设计对应模块,最终进行融合,是一个不错的设计思路。