【论文翻译和解释(1)】Mitigating Confounding Bias in Recommendation via Information Bottleneck

Mitigating Confounding Bias in Recommendation via Information Bottleneck

Abstract

  如何有效地减少推荐系统中的反馈偏差是一个重要的研究课题。本论文中,我们首先通过两种各自的因果图描述了推荐系统中有偏差和无偏差反馈的生成过程,他们之间的差异可以视作偏差的来源。我们将这种差异定义为混杂偏差(confounding bias),这些偏差可以视为一些以前已经研究过的特定偏差的集合。对于仅有反馈偏差情况,我们从因果图中推导了需要获得去偏表示的情况。基于信息论,我们提出了一种叫做**无偏信息瓶颈理论(debiased information bottleneck DIB)**的新颖方法来优化这些情况并且找到了一种对于它的易于解决的解法。特别地,这种方法约束模型在学习阶段去习得一种具有独立的有偏和无偏分量的偏差嵌入向量,并且在测试阶段只使用无偏分量去得到一种更加精确的推荐结果。最后,我们在公开的以及真实商品数据集上进行了大量的试验去验证提出的方法的有效性,并且讨论了它的一些特性。

1 Introduction

  作为反馈循环系统,在用户和系统的交互中会伴随着大量的偏差,例如位置偏差[3,38]、选择偏差[27, 32]和受欢迎程度偏差。忽略这些偏差将会造成推荐模型产生带偏的次优结果,并且会对推荐系统和用户产生不良的影响,例如过滤气泡[16]、回声室效应[11]和不公平推荐[10]。因此,如何有效地缓解推荐系统中收集的反馈数据的偏差是一个重要的问题。之前的工作主要在以下四个方向上解决推荐系统的偏差问题:

  • 基于启发式的方法(heuristic-based methods)[25, 43];
  • 基于逆倾向得分的方法(inverse propensity score-based methods)[32, 44, 45];
  • 无偏的数据增强方法(unbiased data augmentation methods)[5, 23, 39, 46];
  • 一些基于理论工具的方法(some theoretical tools-based methods)[30, 31]。

  第一条假设用户的反馈基于特定的因素并且对这之间的联系进行建模,例如项目特征[12,20]和公共观点[22,24];第二条使用逆倾向得分作为简单权重去调整偏差的反馈分布;第三条引入了一种特殊格式的数据作为无偏的目标数据来指导对偏差反馈的训练;最后一条意在将特定的理论工具和偏差问题结合,利用这些工具去设计一些无偏模型,例如信息瓶颈和因果推理技术[37, 40-42]。然而,大部分方法忽略了偏差的产生过程,因此这些方法可能只适用于某些特定的偏差问题类型。

  受到[13, 18]的启发,在本论文中,我们首先通过两种不同的因果图描述了推荐系统中偏差反馈和无偏反馈的产生过程,两种反馈之间的差别被视为偏差的来源。我们将这种差别定义为混杂偏差,可以被视为一种已经被研究过的一些特定偏差的集合。为了简化以及与推荐领域的主流模型相适应,我们笼统地假设这种混杂偏差将会在反映在利用偏差反馈数据训练的模型的嵌入向量表示中。此外,我们提出了一种无偏信息瓶颈目标函数,在没有无偏数据的情况下缓解有偏反馈中的混杂偏差。

  特别地,提出的方法是基于我们对上述描述的反馈产生过程的因果图的观察。在训练阶段,我们约束模型去学习一种特殊的偏差嵌入向量,包括负责混杂偏差效果的有偏分量和负责用户真实偏好效果的无偏向量。为了去除在测试阶段中混杂偏差的影响,我们在推荐项目的过程中只保留了嵌入向量中的无偏分量,也就是一种无偏嵌入向量。提出的方法有更好的可解释性,因为它是从偏差产生过程的因果图中直接得来的。此外,本方法可以用来解决更加广泛的偏差问题,因为混杂偏差是一些特定偏差的综合。最后,我们在一个公共数据集和一个真实的产品数据集上进行了广泛的实验,以验证该方法的有效性,包括标准无偏测试(standard unbiased tests)、消融研究(ablation studies)和对所提出的方法的一些深入分析。

2 Related Work

2.1 推荐系统中的去偏

  在推荐系统中,偏差问题是一种从学术到工业的研究者和实践者受到越来越多重视的重要的研究方向。推荐系统中的去偏工作可以分成四类,包括:

  • 基于启发式的方法(heuristic-based methods)[25, 43];
  • 基于逆倾向得分的方法(inverse propensity score-based methods)[32, 44, 45];
  • 无偏的数据增强方法(unbiased data augmentation methods)[5, 23, 39, 46];
  • 一些基于理论工具的方法(some theoretical tools-based methods)[30, 31]。

  由于无偏数据的收集过程在实际应用中非常昂贵,一些最近的方法直接使用一些理论工具来对单一的偏差数据进行去偏,例如信息瓶颈[40]、上界最小化(upper bound minimization)[31]、非对称三级训练[30]以及因果推理技术(causal inference techniques)[37, 41, 42]。

2.2 信息瓶颈

  信息瓶颈方法是一项在准确性和复杂性之间寻找最优平衡点的信息论技术[35]。它被认为是深度学习的理论基础,并且被应用于很多领域,例如鲁棒性(robust)或者不变表示学习(invariant represention learning)[9, 26]、解纠缠表示学习(disentangled representation learning)[2]、压缩表示学习(compressed representation learning)[8]、因果推理[28]和特征监测[33]。与我们最相关的是[7, 15]。它们致力于在指示文本信息类型的标签已经给定的时候自定义信息瓶颈的损失学习文本的解纠缠表示。这个表示包括独立的特征嵌入向量和内容嵌入向量,这与我们期待的在偏向嵌入向量中的有偏和无偏分量之间的独立性是一致的。然而,这些方法在推荐系统中是不现实的,因为推荐领域的标签指示的是一种用户偏好和偏差的综合指标。除此之外,据我们所知,只有一个工作考虑到了利用信息瓶颈来解决推荐系统中的偏差问题。这个工作是基于特征嵌入向量的对比分析,提出了一种反直觉的变分信息瓶颈(variational information bottleneck)方法来解决推荐系统中的偏差选择[40]。

3 Notations AND Problem Formulation

3.1 Notations

  设 X = X 1 × ⋯ × X d \mathcal{X}=\mathcal{X}_1\times\cdots\times \mathcal{X}_d X=X1××Xd d d d维的可观测特征空间, Y = { 0 , 1 } \mathcal{Y}=\{0,1\} Y={0,1}为标签空间。本论文中,我们集中于解决推荐系统中的偏差问题。特别的,假设我们有如下 N N N个事件:
( x 1 , y 1 ) , ⋯   , ( x N , y N ) (1) (x^1,y^1),\cdots,(x^N,y^N)\tag{1} (x1,y1),,(xN,yN)(1)
  其中, x i = ( x 1 i , ⋯   , x d i ) ∈ X x^i=(x_1^i,\cdots,x_d^i)\in \mathcal{X} xi=(x1i,,xdi)X,并且 y i ∈ Y y^i\in\mathcal{Y} yiY分别是特征向量以及第 i i i个事件的标签。根据典型推荐系统中的反馈性质,我们假设标签 y y y符合如下分布:

y = { 1 , 事件被展示并被点击 , 0 , 事件被展示却没有被点击 (2) y = \begin{cases} 1, & \text{事件被展示并被点击}, \\ 0, & \text{事件被展示却没有被点击} \end{cases}\tag{2} y={1,0,事件被展示并被点击,事件被展示却没有被点击(2)

  一个事件代表着一个用户与一个系统之间的一次交互。例如,一个商业系统向一位用户推荐了一部电影或者播放了广告。特别的,当没有其他侧边信息,也即只有用户ID u u u和商品ID i i i的时候,一个事件可以被简化为 ( x = ( u , i ) , y ) (x=(u,i),y) (x=(u,i),y)

  反馈事件是被用来训练推荐模型的,这种模型通过学习一种决策函数 y ^ ∈ { − ∞ , + ∞ } \hat{y}\in\{-\infty,+\infty\} y^{,+}来尽可能精确地评估在商品集上用户的偏好。在实践中,决策函数通常是由低秩模型和神经网络模型来实现的,这也被包含在我们的实验中。它们都应用嵌入向量 z ∗ z^* z来表示输入 x x x。因此,我们可以将决策函数描述为通过一层或者多层隐层,将表示向量 z ∗ z^* z映射为标签 y ^ \hat{y} y^的过程。这个过程可以形式化为一个连续表示的马尔可夫链[40], y → x → z ∗ → h 1 → ⋯ → h L → y ^ y\to x\to z^*\to h_1\to\cdots\to h_L\to \hat{y} yxzh1hLy^

3.2 混杂偏差以及问题的规则化

  了更好地理解bias的来源,并且以有针对性的方式解决它,如图1(a),我们从因果推理的角度展示了推荐系统中反馈事件的生成过程。
在这里插入图片描述

  输入变量 x x x(或者说,特征向量)可以分成三部分,包括作用变量 I I I,混杂变量 C C C和调整变量 A A A。作用变量 I I I和混杂变量 C C C决定了处理方式 T T T,它们对输出结果(或者说标签) y y y产生间接作用。混杂变量 C C C和调整变量 A A A对结果具有直接作用。相似的因果图在以前的处理效果预估[13,18]的工作中也可以找到,我们遵循它们的假设,即有很强的忽略性[29]。在推荐系统中,“treatment”一词可以被视为推荐策略,也就是系统选择了哪些项目、系统如何向特定用户组织和展示这些项目。

  不同的推荐策略将会通过影响策略 T T T在反馈事件中造成不同的间接作用。这将导致反馈事件的内在可变性,同时使得大部分旨在最小化可观测反馈误差的推荐模型没有很好的泛化特性。相反,因为直接作用不依赖于处理策略,直接作用可以看作是稳定并且真实的用户偏好。这意味着如果我们可以去除间接作用,即找到一种只依赖于直接作用的特殊策略,那么收集到的反馈事件就是相对稳定的并且无偏差的。我们在图1(b)中展示了无偏反馈事件的产生流程。通过比较图1(a)和图1(b),我们称推荐策略带来的偏差为混杂偏差。混杂偏差是系统级别上的偏差集合,例如位置偏差和受欢迎度偏差。

DEFINITION 3.1(混杂偏差). 假设变量 x x x,输出 y y y,从 x x x y y y的间接作用 { I , C } → T → y \{I,C\}\to T\to y {I,C}Ty和直接作用 { C , A } → y \{C,A\}\to y {C,A}y已经给出。混杂偏差指在推荐系统中由于间接作用导致的可观测反馈的混杂。

  换句话说,之前的工作已经展示了无偏反馈可以通过格式化的策略来获得[5,23,39,46],对于用户的请求,系统从候选集中随机抽取样本项目,并且经过随机的整理之后展示出来。然而,格式化策略将会损害用户体验并且减少平台收入。因此,更加吸引人的设想是只有偏差反馈是可获得的。所以,在本论文中,我们将会集中于只通过偏差反馈来减轻混杂偏差。

4 提出的方法

  实践中,可能很难直接将变量 x x x分组以以获得工具变量 I I I、混杂变量 C C C和调整变量 A A A。实际上,由于大部分推荐模型的目标是习得一种变量 x x x的精确的嵌入向量表示,我们提出了一种符合直觉的常规假设。 z ∗ z^* z作为变量 x x x的较为合适的代理,自然也会受到 x x x中偏差变量的影响。因为 z ∗ z^* z中偏差变量和维度语义之间的对应关系难以获得,所以 z ∗ z^* z也是难以区分的。

ASSUMPTION 4.1 混杂偏差将会反映在通过学习获得的嵌入表示中,偏差通常也将会影响到所有的维度,原始的表示 z ∗ z^* z是有偏的并且不可区分的。

  在上述假设的前提下,我们将会解释在图2中提出的方法。在训练阶段,我们约束模型从变量 x x x中来获得特殊的有偏表示向量,向量中包括两个独立的分量——有偏分量 r r r和无偏分量 z z z r r r负责间接影响, z z z负责直接影响。这个特殊的有偏嵌入向量 [ r , z ] [r,z] [r,z]比原始的表示 z ∗ z^* z更加易于区分混杂偏差的影响。在测试阶段,我们丢弃有偏分量,只使用无偏分量来进行更加精确的推荐。

在这里插入图片描述

从图1(a)中我们可以看到,为了达到我们对精确推荐的预期,必须满足如下情况:

  • 为了避免偏差变量的影响,无差分量 z z z不应该过拟合变量 x x x
  • 由于直接影响的作用,无偏分量 z z z需要尽可能准确地预测标签 y y y
  • 有偏分量 r r r和无偏分量 z z z必须尽可能地独立,从而获得更好的区分,或者说,让 z ⊥ r z\bot r zr
  • 由于间接影响的作用,有偏分量 r r r在某些程度上对预测标签 y y y也是有作用的。

  注意到我们并没有约束有偏分量 r r r和变量 x x x之间的关系,因为两者的依赖程度是由反馈数据中的偏差强度决定的,盲目地优化它只会导致严重的错误。受信息论的启发,我们可以根据以上结论获得用来最小化的目标函数,
L D I B : = m i n β I ( z ; x ) ⏟ 1 ◯ − I ( z ; y ) ⏟ 2 ◯ + γ I ( z ; r ) ⏟ 3 ◯ − α I ( r ; y ) ⏟ 4 ◯ (3) \mathcal{L}_{DIB}:=min \underbrace{\beta I(z;x)}_{\textcircled{1}}-\underbrace{I(z;y)}_{\textcircled{2}}+\underbrace{\gamma I(z;r)}_{\textcircled{3}}-\underbrace{\alpha I(r;y)}_{\textcircled{4}}\tag{3} LDIB:=min1 βI(z;x)2 I(z;y)+3 γI(z;r)4 αI(r;y)(3)

  项 1 ◯ \textcircled{1} 1是用来描述变量 x x x和无偏嵌入向量 z z z之间的压缩项;项 2 ◯ \textcircled{2} 2是描述无偏嵌入向量的表现的精确项;项 3 ◯ \textcircled{3} 3是解混杂因素惩罚项,描述有偏嵌入向量 r r r和无偏嵌入向量 z z z之间的依赖程度;项 4 ◯ \textcircled{4} 4与项目 2 ◯ \textcircled{2} 2类似,用于有偏嵌入向量 r r r的潜在增益。注意到 β \beta β γ \gamma γ α \alpha α都是权重参数。因为等式{3}项目中 1 ◯ \textcircled{1} 1和项目 2 ◯ \textcircled{2} 2与标准的信息瓶颈类似,我们称这个提出的方法为{\kaishu 去偏信息瓶颈},或者叫DIB。通过优化 L D I B \mathcal{L}_{DIB} LDIB,我们期待得到目标有偏和无偏分量,从而去除或者减少混杂偏差。

5 一个可行的优化结构

   L D I B \mathcal{L}_{DIB} LDIB是一个很难处理的优化函数,特别是用于诱导嵌入分离的关键项 I ( z ; r ) I(z;r) I(z;r)。接下来我们讨论解混杂处罚项 I ( z ; r ) I(z;r) I(z;r)和压缩项 I ( z ; x ) I(z;x) I(z;x),并且获得等式{3}的上界。最终,我们根据上界描述了一种易于解决的目标优化函数。

5.1 解除混淆惩罚项

  基于交互信息的链式法则,我们有了如下等式{3}中项目 3 ◯ \textcircled{3} 3的等式,
I ( z ; r ) = I ( z ; y ) − I ( z ; y ∣ r ) + I ( z ; r ∣ y ) (4) I(z;r)=I(z;y)-I(z;y|r)+I(z;r|y)\tag{4} I(z;r)=I(z;y)I(z;yr)+I(z;ry)(4)

公式解释: 根据互信息的链式法则,假设我们有随机变量 X X X Y 1 Y_1 Y1 Y 2 Y_2 Y2,它们之间的互信息可以分解为: I ( X ; Y 1 , Y 2 ) = I ( X ; Y 1 ) + I ( X ; Y 2 ∣ Y 1 ) I ( z ; r ) + I ( z ; y ∣ r ) = I ( z ; y , r ) = I ( z ; y ) + I ( z ; r ∣ y ) I(X;Y_1,Y_2)=I(X;Y_1)+I(X;Y_2|Y_1)\\I(z;r)+I(z;y|r)=I(z;y,r)=I(z;y)+I(z;r|y) I(X;Y1,Y2)=I(X;Y1)+I(X;Y2Y1)I(z;r)+I(z;yr)=I(z;y,r)=I(z;y)+I(z;ry)

  我们深入审视一下等式{4}中的项目 I ( z ; r ∣ y ) I(z;r|y) I(z;ry)。因为 z z z的分布只依赖于变量 x x x,变量 x x x是受到 y y y的影响,我们令 H ( z ∣ y , r ) = H ( z ∣ y ) H(z|y,r)=H(z|y) H(zy,r)=H(zy),这里 H ( ⋅ ∣ ⋅ ) H(\cdot|\cdot) H()代表着条件熵[15,26]。结合交互信息的性质,我们得到,
I ( z ; r ∣ y ) = H ( z ∣ y ) − H ( z ∣ y , r ) = H ( z ∣ y ) − H ( z ∣ y ) = 0 (5) I(z;r|y)=H(z|y)-H(z|y,r)=H(z|y)-H(z|y)=0\tag{5} I(z;ry)=H(zy)H(zy,r)=H(zy)H(zy)=0(5)
通过公式(5)来简化公式(4),得到,
I ( z ; r ) = I ( z ; y ) − I ( z ; y ∣ r ) (6) I(z;r)=I(z;y)-I(z;y|r)\tag{6} I(z;r)=I(z;y)I(z;yr)(6)

由于
I ( X ; Y ∣ Z ) = H ( X ∣ Z ) + H ( Y ∣ Z ) − I ( X ; Y ∣ Z ) = H ( X ∣ Z ) − H ( X ∣ Y , Z ) = H ( Y ∣ Z ) − H ( Y ∣ X , Z ) \begin{equation*} \begin{split} I(X;Y|Z)&=H(X|Z)+H(Y|Z)-I(X;Y|Z)\\&=H(X|Z)-H(X|Y,Z)\\&=H(Y|Z)-H(Y|X,Z) \end{split} \end{equation*} I(X;YZ)=H(XZ)+H(YZ)I(X;YZ)=H(XZ)H(XY,Z)=H(YZ)H(YX,Z)

可得
I ( z ; r ) = I ( z ; y ) − H ( y ∣ r ) + H ( y ∣ z , r ) (7) I(z;r)=I(z;y)-H(y|r)+H(y|z,r)\tag{7} I(z;r)=I(z;y)H(yr)+H(yz,r)(7)

化简(3)式,
L D I B = β I ( z ; x ) − ( 1 − γ ) I ( z ; y ) − γ H ( y ∣ r ) + γ H ( y ∣ z , r ) − α I ( r ; y ) (8) \mathcal{L}_{DIB}=\beta I(z;x)-(1-\gamma)I(z;y)-\gamma H(y|r)+\gamma H(y|z, r)-\alpha I(r;y)\tag{8} LDIB=βI(z;x)(1γ)I(z;y)γH(yr)+γH(yz,r)αI(r;y)(8)

5.2 压缩项

  我们可以发现,在等式(8)中只有 I ( z ; x ) I(z;x) I(z;x)与变量 x x x相关。为了优化这一项,我们利用类似于[15, 40]中的方法来描述一种对于这个互信息项的简单而且精确的表示。首先,基于互信息和KL散度之间的关系,互信息项 I ( z ; x ) I(z;x) I(z;x)可以被计算为如下,
I ( z ; x ) = E x [ D K L ( p ( z ∣ x ) ∣ ∣ p ( z ) ) ] = ∑ x p ( x ) ∑ z p ( z ∣ x ) log ⁡ p ( z ∣ x ) − ∑ z p ( z ) log ⁡ p ( z ) . (9) \begin{equation*} \begin{split} I(z;x)&=\mathbb{E}_x[D_{KL}(p(z|x)||p(z))]\\&=\sum\limits_x p(x)\sum\limits_z p(z|x)\log p(z|x)-\sum\limits_z p(z)\log p(z). \end{split} \end{equation*}\tag{9} I(z;x)=Ex[DKL(p(zx)∣∣p(z))]=xp(x)zp(zx)logp(zx)zp(z)logp(z).(9)

公式解释: 已知,互信息的计算公式为,
I ( X ; Y ) = ∑ y ∈ Y ∑ x ∈ X p ( X , Y ) ( x , y ) × log ⁡ ( p ( X , Y ) ( x , y ) p X ( x ) p Y ( y ) ) = ∑ y ∈ Y p Y ( y ) ∑ x ∈ X p ( X , Y ) ( x , y ) p Y ( y ) log ⁡ ( p ( X , Y ) ( x , y ) p X ( x ) p Y ( y ) ) = E y [ ∑ x ∈ X p ( X , Y ) ( x ∣ y ) log ⁡ p ( X , Y ) ( x ∣ y ) p X ( x ) ] = E y [ D K L ( p ( x ∣ y ) ∣ ∣ p ( x ) ) ] \begin{equation*} \begin{split} I(X;Y)&=\sum\limits_{y\in Y}\sum\limits_{x\in X}p_{(X,Y)}(x,y)\times\log(\frac{p_{(X,Y)}(x,y)}{p_X(x)p_Y(y)})\\ &=\sum\limits_{y\in Y} p_{Y}(y)\sum\limits_{x\in X} \frac{p_{(X,Y)}(x,y)}{p_Y(y)}\log(\frac{p_{(X,Y)}(x,y)}{p_X(x)p_Y(y)})\\ &=\mathbb{E}_y[\sum\limits_{x\in X} p_{(X,Y)}(x|y)\log \frac{p_{(X,Y)}(x|y)}{p_X(x)}]\\ &=\mathbb{E}_y[D_{KL}(p(x|y)||p(x))] \end{split} \end{equation*} I(X;Y)=yYxXp(X,Y)(x,y)×log(pX(x)pY(y)p(X,Y)(x,y))=yYpY(y)xXpY(y)p(X,Y)(x,y)log(pX(x)pY(y)p(X,Y)(x,y))=Ey[xXp(X,Y)(xy)logpX(x)p(X,Y)(xy)]=Ey[DKL(p(xy)∣∣p(x))]
KL散度的计算公式为:
D K L ( p ∣ ∣ q ) = ∑ x p ( x ) × log ⁡ p ( x ) q ( x ) D_{KL}(p||q)=\sum\limits_xp(x)\times \log \frac{p(x)}{q(x)} DKL(p∣∣q)=xp(x)×logq(x)p(x)
所以,
I ( z ; x ) = ∑ x ∑ z p ( z , x ) p ( x ) × p ( x ) × ( log ⁡ p ( z , x ) p ( x ) − log ⁡ p ( z ) ) = ∑ x p ( x ) ∑ z p ( z ∣ x ) log ⁡ p ( z ∣ x ) − ∑ x p ( z , x ) ∑ z log ⁡ p ( z ) = ∑ x p ( x ) ∑ z p ( z ∣ x ) log ⁡ p ( z ∣ x ) − ∑ x ∑ z p ( z , x ) log ⁡ p ( z ) \begin{equation*} \begin{split} I(z;x)&=\sum\limits_x\sum\limits_z \frac{p(z,x)}{p(x)}\times p(x)\times (\log\frac{p(z,x)}{p(x)} - \log p(z))\\ &=\sum\limits_x p(x)\sum\limits_z p(z|x)\log p(z|x) - \sum\limits_x p(z,x)\sum\limits_z \log p(z)\\ &=\sum\limits_x p(x)\sum\limits_z p(z|x)\log p(z|x) - \sum\limits_x \sum\limits_z p(z,x) \log p(z) \end{split} \end{equation*} I(z;x)=xzp(x)p(z,x)×p(x)×(logp(x)p(z,x)logp(z))=xp(x)zp(zx)logp(zx)xp(z,x)zlogp(z)=xp(x)zp(zx)logp(zx)xzp(z,x)logp(z)

  然而,边缘概率 p ( z ) = ∑ x p ( z ∣ x ) p ( x ) p(z)=\sum_x p(z|x)p(x) p(z)=xp(zx)p(x)在实际上是难以计算的。我们使用变分近似来解决这个问题。我们使用一个变量分布 q ( z ) q(z) q(z)来替代 p ( z ) p(z) p(z)。根据吉布斯不等式,我们知道KL散度是非负的。因此,我们可以获得(9)式的上界。
D K L ( p ( z ) ∣ ∣ q ( z ) ) ≥ 0 ⇒ − ∑ z p ( z ) log ⁡ p ( z ) ≤ − ∑ z p ( z ) log ⁡ q ( z ) ⇒ D K L ( p ( z ∣ k ) ∣ ∣ p ( z ) ) ≤ D K L ( p ( z ∣ x ) ∣ ∣ q ( z ) ) . (10) \begin{equation*} \begin{split} &D_{KL}(p(z)||q(z))\ge 0\\ &\Rightarrow -\sum\limits_z p(z)\log p(z) \le -\sum\limits_z p(z)\log q(z)\\ &\Rightarrow D_{KL}(p(z|k)||p(z)) \le D_{KL}(p(z|x)||q(z)). \end{split} \end{equation*}\tag{10} DKL(p(z)∣∣q(z))0zp(z)logp(z)zp(z)logq(z)DKL(p(zk)∣∣p(z))DKL(p(zx)∣∣q(z)).(10)

类似于之前的工作[21],我们可以假设后验概率 p ( z ∣ x ) = N ( μ ( x ) , diag { σ 2 ( x ) } ) p(z|x)=\mathcal{N}(\mu (x), \text{diag}\{\sigma^2(x)\}) p(zx)=N(μ(x),diag{σ2(x)})为高斯分布,这里 μ ( x ) \mu (x) μ(x)是编码的嵌入向量 x x x diag { σ 2 ( x ) } \text{diag} \{\sigma^2(x)\} diag{σ2(x)}是对角为方差的协方差矩阵。通过这个再参数化方法,嵌入向量 z z z可以根据 z = μ ( x ) + ϵ ⊙ σ ( x ) z=\mu (x) + \epsilon \odot \sigma(x) z=μ(x)+ϵσ(x),其中 ϵ ∼ N ( 0 , I ) \epsilon \sim \mathcal{N}(0,I) ϵN(0,I)。显然,如果我们固定 σ ( x ) \sigma(x) σ(x)为全零的矩阵, z z z将会简化成一个确定的嵌入量。另一方面,之前的 q ( z ) q(z) q(z)被假定为标准的高斯变量分布,也就是 q ( z ) = N ( 0 , I ) q(z)=\mathcal{N}(0,I) q(z)=N(0,I)。最终,我们可以重写之前的上界公式,

D K L ( p ( z ∣ x ) ∣ ∣ q ( z ) ) = 1 2 ∣ ∣ μ ( x ) ∣ ∣ 2 2 + 1 2 ∑ d ( σ d 2 − log ⁡ σ d 2 − 1 ) , (11) D_{KL}(p(z|x)||q(z))=\frac{1}{2}\vert\vert \mu(x)\vert\vert_2^2+\frac{1}{2}\sum\limits_d(\sigma_d^2-\log \sigma_d^2 -1),\tag{11} DKL(p(zx)∣∣q(z))=21∣∣μ(x)22+21d(σd2logσd21),(11)

这里 σ d 2 \sigma_d^2 σd2是对角矩阵的元素,也就是说 diag { σ 2 ( x ) } = { σ d 2 } d = 1 D \text{diag}\{\sigma^2(x)\}=\{\sigma_d^2\}_{d=1}^D diag{σ2(x)}={σd2}d=1D。这意味着对于一个确定的嵌入量 z z z,我们可以通过直接将 ℓ 2 -normal \ell_2\text{-normal} 2-normal正则化项作用到嵌入向量 z z z中来优化上界。注意到在之前的工作中压缩项作用于整个偏差表示 z ∗ z^* z,我们只压缩表示中的无偏差分量。

5.3 Algorithm

对于式(8)中的互信息 I ( z ; y ) I(z;y) I(z;y),我们有 I ( z ; y ) = H ( y ) − H ( y ∣ z ) I(z;y)=H(y)-H(y|z) I(z;y)=H(y)H(yz)。因为 H ( y ) H(y) H(y)是正常量并且不能被忽略,我们有如下的不等式,
I ( z ; y ) ≥ − H ( y ∣ z ) (12) I(z;y)\ge -H(y|z)\tag{12} I(z;y)H(yz)(12)
这个不等式也可以用在(8)式的互信息 I ( r ; y ) I(r;y) I(r;y)中。综合式(11)和式(12),我们重写式(8)如下,
L D I B = β I ( z ; x ) − ( 1 − γ ) I ( z ; y ) − γ H ( y ∣ r ) + γ H ( y ∣ z , r ) − α I ( r ; y ) ≤ β ∣ ∣ μ ( x ) ∣ ∣ 2 2 + ( 1 − γ ) H ( y ∣ z ) − ( γ − α ) H ( y ∣ r ) + γ H ( y ∣ z , r ) . (13) \begin{equation*} \begin{split} \mathcal{L}_{DIB}&=\beta I(z;x)-(1-\gamma)I(z;y)-\gamma H(y|r) + \gamma H(y|z,r)-\alpha I(r;y)\\&\le \beta\vert\vert\mu(x)\vert\vert_2^2 +(1-\gamma)H(y|z)-(\gamma - \alpha)H(y|r)+\gamma H(y|z,r). \end{split} \end{equation*}\tag{13} LDIB=βI(z;x)(1γ)I(z;y)γH(yr)+γH(yz,r)αI(r;y)β∣∣μ(x)22+(1γ)H(yz)(γα)H(yr)+γH(yz,r).(13)
最终,我们获得可解的式子 L D I B \mathcal{L}_{DIB} LDIB
L ^ D I B = ( 1 − γ ) H ( y ∣ z ) ⏟ ( a ) − ( γ − α ) H ( y ∣ r ) ⏟ ( b ) + γ H ( y ∣ z , r ) ⏟ ( c ) + β ∣ ∣ μ ( x ) ∣ ∣ 2 2 ⏟ ( d ) , (14) \hat{\mathcal{L}}_{DIB}=\underbrace{(1-\gamma)H(y|z)}_{(a)}-\underbrace{(\gamma - \alpha)H(y|r)}_{(b)}+\underbrace{\gamma H(y|z,r)}_{(c)}+\underbrace{\beta\vert\vert \mu(x)\vert\vert_2^2}_{(d)},\tag{14} L^DIB=(a) (1γ)H(yz)(b) (γα)H(yr)+(c) γH(yz,r)+(d) β∣∣μ(x)22,(14)
这里, 0 < α < γ < 1 0<\alpha<\gamma<1 0<α<γ<1。令 y ^ r \hat{y}_r y^r y ^ z \hat{y}_z y^z y ^ z , c \hat{y}_{z,c} y^z,c作为有偏分量 r r r、无偏向量 z z z和有偏嵌入向量 [ z , r ] [z,r] [z,r]分别产生的预测标签。最终的目标函数也包含四个项:项(a)表示 y ^ z \hat{y}_z y^z y y y之间的交叉熵;项(b)代表 y ^ r \hat{y}_r y^r y y y之间的交叉熵;项©表示 y ^ z , r \hat{y}_{z,r} y^z,r z z z之间的交叉熵;项(d)是提升嵌入表示鲁棒性的正则化项。完整的DIB优化过程在算法1中展现。
在这里插入图片描述

6 实验

本章节,我们以下面三个关键问题为目标,设计综合实验,

  • RQ1:所提出的方法在无偏评估中相对于基线的表现如何?
  • RQ2:提出的方法中每个项所扮演的角色如何,如何发挥作用?
  • RQ3:提出的方法在训练过程中的特点如何?

👉论文作者公开的代码地址

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值