On Variational Bounds of Mutual Information
估算和优化相互信息(MI)是机器学习中许多问题的核心;然而,在高维度上约束MI是一个挑战。为了建立可操作和可扩展的目标,最近的工作转向了以神经网络为参数的变分界限,但这些界限之间的关系和权衡仍不清楚。
在这项工作中,我们将这些最新的发展统一到一个框架中。我们发现,当MI较大时,现有的变异下限会下降,表现为高偏差bias或高方差。为了解决这个问题,我们引入了一个连续的下界,它包含了以前的下界,并灵活地权衡了偏差和方差。在高维受控问题上,我们用经验的方法刻画了边界及其梯度的偏差和方差,并证明了我们的新边界对于估计和表示学习的有效性。
1. Introduction
估计变量对之间的关系是科学和工程中的一个基本问题。量化这种关系的程度需要一个度量来捕捉依赖性的概念。这里,我们关注互信息(MI),表示为I(X;Y),这是依赖关系的重参数化不变度量(a reparameterization-invariant measure of dependency):
互信息估计器被用于计算神经科学(Palmer等人,2015)、贝叶斯最优实验设计(Ryan等人,2016;Foster等人,2018)、理解神经网络(Tishby等人,2000;Tishby和Zaslavsky,2015;Gabrie等人 ´ ,2018)等等。在实践中,估计MI是具有挑战性的,因为我们通常可以获得样本,但不能获得基本分布(Paninski,2003;McAllester & Stratos,2018)。现有的基于样本的估计器是很脆的,估计器的超参数会影响科学结论(Saxe等人,2018)。
除了估计,许多方法使用MI的上限来限制表征的容量或内容。例如,在information bottleneck method(Tishby等人,2000;Alemi等人,2016)中,表征被优化以解决下游任务,同时被限制为包含尽可能少的输入信息。这些技术在各种领域都被证明是有用的,从限制GANs中判别器的容量(Peng等人,2018)到防止表示包含受保护属性的信息(Moyer等人,2018)。
最后,在表征学习中,有越来越多的方法使学到的表征和数据的某个方面之间的相互信息最大化。具体来说,给定数据分布的样本x∼p(x),目标是学习数据的随机表征pθ(y|x),该表征在映射的约束条件下与X具有最大的MI(例如Bell & Sejnowski,1995;Krause等人,2010;Hu等人,2017;van den Oord等人,2018;Hjelm等人,2018;Alemi等人,2017)。为了最大化MI,我们可以计算MI相对于随机编码器 p θ ( y ∣ x ) p_θ(y|x) pθ(y∣x)的参数θ的下限梯度,这可能不需要直接估计MI。虽然许多参数和非参数(Nemenman等人,2004;Kraskov等人,2004;Reshef等人,2011;Gao等人,2015)技术已经被提出来解决MI估计和优化问题,但很少有技术能扩展到现代机器学习问题中遇到的数据集大小和维度。
为了克服这些缩放困难,最近的工作将变分界线(Blei等,2017;Donsker & Varadhan,1983;Barber & Agakov,2003;Nguyen等,2010;Foster等,2018)与深度学习(Alemi等,2016;2017;van den Oord等,2018;Hjelm等,2018;Belghazi等,2018)相结合,实现相互信息的可微differentiable和可控估计。
这些论文介绍了灵活的参数化分布或critics parameterized by neural networks,这些critics 被用来逼近未知的密度 ( p ( y ) , p ( y ∣ x ) ) (p(y),p(y|x)) (p(y),p(y∣x))或密度比 p ( x ∣ y ) p ( x ) = p ( y ∣ x ) p ( y ) \frac{p(x|y)}{p(x)}=\frac{p(y|x)}{p(y)} p(x)p(x∣y)=p(y)p(y∣x)。
尽管它们很有效,但人们对现有的MI的变分估计器的特性并不十分了解。在本文中,我们介绍了几个结果,开始揭开这些方法的神秘面纱,并提出了具有改进性质的新界限(见图1的示意图)。
图1. 本文提出的相信息的变分界线示意图。节点根据其对估计和优化的可操作性而着色:绿色界限可用于两者,黄色用于优化而非估计,红色不可用于两者。子代是通过引入新的近似值或假设从其父代衍生出来的。
- 我们对现有的估计器进行了回顾,讨论了它们之间的关系和权衡,包括首次证明van den Oord等人(2018)的噪声对比损失是MI的下限,以及Belghazi等人(2018)的启发式 "偏差校正梯度 bias corrected gradients"可以被证明是对MI的不同下限的无偏估计。
dients"可以被证明是对MI的不同下限的无偏估计。
- 我们推导出一个新的连续的多样本下限,可以灵活地权衡偏差和方差,概括了(Nguyen等人,2010;van den Oord等人,2018)的界限。
这通常被称为生成模型中的rate(Alemi等人,2017)。当q(y)=p(y)时,这个约束是严格的,并且要求计算log q(y)是可行的。这个变分上界经常被用作regularizer来限制随机表示(stochastic representation)的容量(例如Rezende等人,2014;Kingma & Welling,2013;Burgess等人,2018)。在Alemi等人(2016)中,这个上界被用来防止representation携带与下游分类任务不相关的输入信息。
与上界不同,大多数互信息的变分下界不需要直接了解任何条件密度。为了建立互信息的初始下界,我们将MI反方向因子作为上界(we factor MI the opposite direction as the upper bound),并将难以解决的条件分布p(x|y)替换为变异分布q(x|y)上的可行的优化问题。如Barber & Agakov (2003)所示,由于KL发散的非负性,这产生了MI的下限。
其中h(X)是X的differential entropy。当q(x | y)=p(x | y)时,界是紧的,在这种情况下,第一项等于条件熵h(x | y)。不幸的是,评估这个目标通常是难以实现的,因为X的differential entropy往往是未知的。如果h(X)是已知的,这就为MI的下限提供了一个可行的估计。否则,我们仍然可以比较不同变量(例如,Y1和Y2)携带的关于X的信息量。
在表征学习的背景下,X是数据,Y是学到的随机表征, I B A I_{BA} IBA的第一项可以被认为是负的重建误差或失真,而且IBA相对于 "编码器 "p(y|x)和变分 "解码器 "q(x|y)的梯度是可控的。因此,我们可以使用这个目标来学习一个编码器p(y|x),使I(X; Y )最大化,如Alemi等人(2017)。然而,这种表示学习的方法需要建立一个解码器q(x|y),当X是高维和h(X|Y)很大时,这是一个挑战,例如在视频表示学习中(van den Oord等人,2016)。
2.2. Unnormalized lower bounds
为了得出不需要解码器的下限,我们转向q(x|y)的变分族的非标准化化分布(we turn to unnormalized distributions for the variational family of q(x|y)),并说明这如何恢复Donsker & Varadhan(1983);Nguyen等人(2010)的估计。
我们选择一个基于能量的变分族,它使用一个f(x, y),并按数据密度p(x)缩放:
将这个分布代入
I
B
A
I_{BA}
IBA(公式2),可以得到MI的下限,我们将其称为
I
U
B
A
I_{UBA}
IUBA,即Barber和Agakov约束的e Unnormalized version。
当
f
(
x
,
y
)
=
l
o
g
p
(
y
∣
x
)
+
c
(
y
)
f(x, y)= log\ p(y|x)+c(y)
f(x,y)=log p(y∣x)+c(y),其中c(y)只是y(而不是x)的函数时,这个约束是严格的。请注意,通过用
p
(
x
)
p(x)
p(x)缩放
q
(
x
∣
y
)
q(x|y)
q(x∣y),IBA中难以解决的differential entropy项被取消了,但我们仍然留下了一个难以解决的log partition function,
l
o
g
Z
(
y
)
log\ Z(y)
log Z(y),这使得评估或梯度计算无法进行。如果我们对
E
p
(
y
)
[
l
o
g
Z
(
y
)
]
E_{p(y)}[log\ Z(y)]
Ep(y)[log Z(y)]应用Jensen不等式,我们可以降低公式4的界限,恢复Donsker & Varadhan(1983)的界限。
然而,这个目标依旧难以优化,Applying Jensen’s the other direction by replacing
l
o
g
Z
(
y
)
=
l
o
g
E
p
(
x
)
[
e
f
(
x
,
y
)
]
log\ Z(y)=log\mathbb E_{p(x)}[e^{f(x,y)}]
log Z(y)=logEp(x)[ef(x,y)] with
E
p
(
x
)
[
f
(
x
,
y
)
]
\mathbb E_{p(x)}[f(x,y)]
Ep(x)[f(x,y)] 结果是一个可行的目标,但产生了公式4的上界(其本身就是互信息的下界)。因此,使用MINE(Belghazi等人,2018)中的蒙特卡洛期望值近似来评估
I
D
V
I_{DV}
IDV,产生的估计值既不是MI的上限,也不是MI的下限。最近的工作研究了这种嵌套蒙特卡洛估计器的收敛性和asymptotic 一致性,但没有解决建立有限样本下成立的界限的问题(Rainforth等人,2018;Mathieu等人,2018)。
为了形成一个可处理的界,我们可以利用不等式对log配分函数(log partition function)进行上界:
l
o
g
(
x
)
≤
x
a
+
l
o
g
(
a
)
−
1
log(x)\le\frac{x}{a}+log(a)-1
log(x)≤ax+log(a)−1对所有
x
,
a
>
0
x,a>0
x,a>0。将此不等式应用于Eq. 4的第二项,可得:
l
o
g
Z
(
y
)
≤
Z
(
y
)
a
(
y
)
+
l
o
g
(
a
(
y
)
)
−
1
log\ Z(y)\le\frac{Z(y)}{a(y)}+log(a(y))-1
log Z(y)≤a(y)Z(y)+log(a(y))−1,当
a
(
y
)
=
Z
(
y
)
a(y)=Z(y)
a(y)=Z(y)时,不等式是紧的(which is
tight when a(y) = Z(y).)。这导致了对MI的可行的Unnormalized version of Barber and Agakov(TUBA)) lower bound,允许无偏的估计和梯度。
为了收紧这个下限(To tighten this lower bound),我们对变量参数
a
(
y
)
a(y)
a(y)和
f
f
f 进行最大化。在InfoMax设置中,我们可以对随机编码器
p
θ
(
y
∣
x
)
p_θ(y|x)
pθ(y∣x)进行最大化约束,以增加I(X; Y )。与GANs的最小-最大目标不同,所有的参数都朝着同一个目标优化。. In the InfoMax setting, we can maximize the bound with respect to the stochastic encoder
p
θ
(
y
∣
x
)
p_θ(y|x)
pθ(y∣x) to increase
I
(
X
;
Y
)
I(X; Y )
I(X;Y). Unlike the min-max objective of GANs, all parameters are optimized towards the same objective.
这个界限对任何
a
(
y
)
>
0
a(y)>0
a(y)>0的选择都是成立的。让a(y)为常数e,可以恢复Nguyen、Wainwright和Jordan(Nguyen等人,2010)的约束,也被称为f-GAN KL(Nowozin等人,2016)和MINE-f(Belghazi等人,2018)。
这个可行的约束不再需要学习a(y),但现在f(x, y)必须学习 self-normalize,产生一个独特的最佳
f
∗
(
x
,
y
)
=
1
+
l
o
g
p
(
x
∣
y
)
p
(
x
)
f^∗(x, y) = 1+log\ \frac{p(x|y)}{p(x)}
f∗(x,y)=1+log p(x)p(x∣y)。在学习log-linear models时,这种self-normalize的要求是一种常见的选择,而且经验表明不会对性能产生负面影响(Mnih & Teh, 2012)。
最后,我们可以将
a
(
y
)
a(y)
a(y)设置为
e
f
(
x
,
y
)
e^{f(x,y)}
ef(x,y)的标量指数移动平均数(EMA)(scalar exponential moving average (EMA)),across minibatches。这使归一化常数与y无关,但它不再需要归一化。有了这个a(y)的选择,
I
T
U
B
A
I_{TUBA}
ITUBA的梯度正好产生了(Belghazi等人,2018) “改进的MINE梯度估计器”。
这为Belghazi等人(2018)提出的启发式优化程序提供了合理的理由。然而,不像Belghazi et al.(2018)那样,使用 I D V I_{DV} IDV bound中的critic来获得不属于MI界的估计值,可以使用 I T U B A I_{TUBA} ITUBA来计算估计值,从而得到有效的下限。
总而言之,这些非正则化的界线是有吸引力的,因为它们提供了可行的估计,这些估计与optimal critic的关系变得紧密。然而,在实践中,由于它们对og partition function的高方差上界的依赖,它们表现出高方差。
2.3. Multi-sample unnormalized lower bounds
为了减少方差,我们将非归一化的界限(unnormalized bounds)扩展到取决于多个样本,并展示了如何恢复van den Oord等人(2018)提出的低方差但高偏差(high-bias)的MI估计器。
我们的目标是在给定
p
(
x
1
)
p
(
y
∣
x
1
)
p(x_1) p(y|x_1)
p(x1)p(y∣x1) 的样本和K-1个额外样本
x
2
:
K
∼
r
K
−
1
x
2
:
K
x_{2:K} \sim r^{K-1}x_{2:K}
x2:K∼rK−1x2:K(可能来自与X1不同的分布)的情况下估计
I
(
X
1
,
Y
)
I(X_1,Y)
I(X1,Y)。对于任何独立于X和Y的随机变量Z,
I
(
X
,
Z
;
Y
)
=
I
(
X
;
Y
)
I(X, Z; Y ) = I(X; Y )
I(X,Z;Y)=I(X;Y),因此
这个多样本互信息可以用之前的任何一个界来估计,并且具有与
I
(
X
1
;
Y
)
I(X_1; Y )
I(X1;Y)相同的optimal critic 。对于
I
N
W
J
I_{NWJ}
INWJ,我们有optimal critic
f
∗
(
x
1
:
K
;
Y
)
=
1
+
l
o
g
p
(
y
∣
x
1
:
K
)
p
(
y
)
=
1
+
l
o
g
p
(
y
∣
x
1
)
p
(
y
)
f^*(x_{1:K};Y)=1+log\ \frac{p(y|x_{1:K})}{p(y)}=1+log\ \frac{p(y|x_{1})}{p(y)}
f∗(x1:K;Y)=1+log p(y)p(y∣x1:K)=1+log p(y)p(y∣x1)
其中我们用参数
a
(
y
;
x
1
:
K
)
a(y; x_{1:K})
a(y;x1:K)来描述critic,以强调与
I
T
U
B
A
I_{TUBA}
ITUBA中的变分参数的密切联系。利用这些来自p(x)的额外样本的方法之一是建立一个partition functionZ (y)的蒙特卡洛估计。
其中,期望值是来自联合分布的K个独立样本。
Π
j
p
(
x
j
,
y
j
)
\Pi _j p(x_j, y_j)
Πjp(xj,yj)。这提供了一个证明2,即
I
N
C
E
I_{NCE}
INCE是MI的下限。与
I
N
W
J
I_{NWJ}
INWJ不同的是,
I
N
C
E
I_{NCE}
INCE的最佳批评者取决于条件密度和边际密度,
I
N
C
E
I_{NCE}
INCE的optimal critic是f(x,y)=log p(y|x)+c(y),其中c(y)是任何取决于y而不是x的函数(Ma & Collins,2018)。因此,critic只需要学习条件密度,而不是边际密度p(y)。
正如van den Oord等人(2018)所指出的,
I
N
C
E
I_{NCE}
INCE的上限是log K,也就是说,当I(X;Y)> log K时,这个界限将是宽松的。虽然optimal critic不依赖于batch大小,可以用较小的mini-batch次来适应,但如果互信息很高,准确估计互信息仍然需要在测试时有很大的批次大小。