ON MUTUAL INFORMATION MAXIMIZATION FOR REPRESENTATION LEARNING
许多最近的无监督或自监督的表征学习方法通过最大化数据的不同视图之间的相互信息(MI)来训练特征提取器。这带来了几个直接的问题。例如,MI是出了名的难以估计,而且由于其在任意可逆变换下的不变性,使用它作为表征学习的目标可能会导致高度纠缠的表征(highly entangled representations)。然而,这些方法在实践中已被反复证明是优秀的。在本文中,我们认为并提供了经验证据,这些方法的成功不能仅仅归功于MI的特性,它们在很大程度上取决于特征提取器结构的选择和所采用的MI估计器的参数化中的归纳偏差。最后,我们建立了与深度度量学习的联系,并认为这种解释可能是对最近引入的方法的成功的一种合理解释。
1 INTRODUCTION
最近,受到InfoMax原理(Linsker,1988)的启发,出现了一种新的方法:选择一个表示g(x),使输入和表示之间的互信息(MI)最大化,可能受到一些结构约束。MI通过观察其他随机变量 Y 1 Y^1 Y1而获得的关于随机变量X的信息量,X和Y之间的MI,具有联合密度p(X,Y)和边缘密度p(X)和p(Y),定义为联合和边缘乘积之间的Kullback–Leibler(KL)散度
MI的基本属性被很好地理解,并被广泛地研究(例如Kraskov等人(2004))。首先,MI在变量的重构下是不变的( MI is invariant under reparametrization of the variables)–也就是说,如果 X ′ = f 1 ( X ) X'=f_1(X) X′=f1(X)和 Y ′ = f 2 ( Y ) Y'=f_2(Y) Y′=f2(Y)是同构的(即光滑的可逆映射)(are homeomorphisms (i.e. smooth invertible maps)),那么 I ( X ; Y ) = I ( X ′ ; Y ′ ) I(X; Y ) = I(X'; Y') I(X;Y)=I(X′;Y′)。其次,在高维空间中估计MI是一项众所周知的困难任务,在实践中,人们通常会最大化这个数量的可行下限(Poole等人,2019)。
尽管存在这些基本挑战,但最近的几项研究表明,使用MI最大化在表征学习方面取得了有希望的实证结果。在这项工作中,我们认为,并提供经验证据,这些方法的成功不能仅仅归因于的MI。事实上,我们证明了最大化MI上更紧的界会导致更糟糕的表示。此外,我们建立了与深度度量学习的联系,并认为这种解释可能是最近引入的方法成功的合理解释。
2 BACKGROUND AND RELATED WORK
RELATED WORK
Recent progress and the InfoMax principle 虽然文献中提出了其他领域的有希望的结果,但我们将重点关注在图像分类任务上取得最先进性能的无监督图像表示学习技术(Hénaff等人,2019;Tian等人,2019;Bachman等人,2019)。通常的问题设置至少可以追溯到Becker和Hinton(1992),简单描述如下。对于一个给定的图像X,让
X
(
1
)
X^{(1)}
X(1)和
X
(
2
)
X^{(2)}
X(2)是X的不同的、可能重叠的视图,例如图像的上半部分和下半部分。它们分别用编码器
g
1
g_1
g1和
g
2
g_2
g2进行编码,两个特征
g
1
(
X
(
1
)
)
和
g
2
(
X
(
2
)
)
g_1(X^{(1)})和g_2(X^{(2)})
g1(X(1))和g2(X(2))之间的MI是最大化的。
其中
I
E
S
T
(
X
;
Y
)
I_{EST}(X; Y )
IEST(X;Y)是真实MI
I
(
X
;
Y
)
I(X; Y )
I(X;Y)的基于样本的估计器,函数类
G
1
和
G
2
\mathcal G_1和\mathcal G_2
G1和G2可以用来指定编码器的结构约束。虽然没有明确反映在(2)中,但请注意,g1和g2往往可以共享参数。此外,可以证明
I
(
g
1
(
X
(
1
)
)
;
g
2
(
X
(
2
)
)
≤
I
(
X
;
g
1
(
X
(
1
)
)
,
g
2
(
X
(
2
)
)
I(g_1(X^{(1)}); g_2(X^{(2)})≤I(X; g_1(X^{(1)}), g_2(X^{(2)})
I(g1(X(1));g2(X(2))≤I(X;g1(X(1)),g2(X(2)),因此(2)中的目标可以被视为InfoMax目标
m
a
x
g
∈
G
I
(
X
;
g
(
X
)
)
max_{g∈\mathcal G} I(X; g(X))
maxg∈GI(X;g(X))的下限。 (Linsker, 1988)。
Practical advantages of multi-view formulations
使用(2)而不是原来的InfoMax目标有两个主要优点。首先,必须仅在两个视图的学习表示之间估计MI,这两个视图通常位于比原始数据X所在的空间低得多的维空间上。其次,它为我们提供了大量的建模灵活性,因为可以选择两个视图来捕获数据的完全不同的方面和模式,例如:
- 在DeepInfoMax(Hjelm等人,2019)的基本形式中, g 1 g_1 g1从整个图像(entire image) X ( 1 ) X(1) X(1)中提取全局特征, g 2 g_2 g2从图像斑块( image patches )X(2)中提取局部特征,其中 g 1 g_1 g1和 g 2 g_2 g2对应于同一卷积网络不同层中的激活。Bachman等人(2019)在此基础上,从同一图像的不同增量中计算出两个视图。
- Contrastive multiview coding(CMC)(Tian等人,2019)将(2)中的目标概括为考虑多个视图 X ( i ) X^{(i)} X(i),其中每个 X ( i ) X^{(i)} X(i)对应不同的图像模式(例如,不同的颜色通道,或图像及其s segmentation mask)。
- Contrastive predictive coding(CPC)(van den Oord等人,2018;Hénaff等人,2019)包含了数据的顺序部分。具体来说,我们以某种固定的顺序从图像中提取一连串的斑块,用编码器映射每个斑块,将前t个斑块的特征汇总成一个上下文向量,并使上下文和从t+k位置的斑块中提取的特征之间的MI最大化。
其他方法,如Sermanet等人(2018)、Hu等人(2017)和Ji等人(2019)提出的方法,也同样可以归入同一目标。
Lower bounds on MI 从(2)中可以看出,另一个关键选择是MI估计器 I E S T I_{EST} IEST。鉴于MI估计的基本局限性(McAllester和Statos,2018),最近的工作主要是推导MI的下限。直观地说,这些界限是基于以下想法:如果一个分类器能够准确区分从联合p(x, y)中抽取的样本和从边际p(x)p(y)的乘积中抽取的样本,那么X和Y的MI很高。(Intuitively, these bounds are based on the following idea: If a classifier can accurately distinguish between samples drawn from the joint p(x, y) and those drawn from the product of marginals p(x)p(y), then X and Y have a high MI.)
我们将重点讨论两个这样的估计器,它们在表征学习文献中最常被使用。文献中最常用的。其中第一个被称为InfoNCE(van den Oord等人,2018),被定义为
其中,期望值是来自联合分布
p
(
x
,
y
)
p(x,y)
p(x,y)的K个独立样本
{
(
x
i
,
y
i
)
}
i
=
1
K
\{(xi,yi)\}^K _{i=1}
{(xi,yi)}i=1K(Poole等人,2019)。在实践中,我们通过对多batch样本的平均化,使用蒙特卡洛估计法来估计(3)。Intuitively, the critic function f tries to predict for each
x
i
x_i
xi which of the K samples
y
1
,
.
.
.
,
y
k
y_1, . . . , y_k
y1,...,yk it was jointly drawn with, by assigning high values to the jointly drawn pair, and low values to all other pairs。第二个估计器是基于Nguyen、Wainwright和Jordan(NWJ)的KL发散的变分形式(Nguyen等人,2010),其形式为
**关于详细的推导,我们请读者参考(Ruderman等人,2012;Poole等人,2019)。**请注意,这些界限对任何critic f都是成立的,当用于(2)时,实际上是对
g
1
、
g
2
和
f
g_1、g_2和f
g1、g2和f进行联合最大化。此外,可以证明(3)是由
f
∗
(
x
,
y
)
=
l
o
g
p
(
y
∣
x
)
f^∗(x,y)=log\ p (y|x)
f∗(x,y)=log p(y∣x)最大化的,(4 通过
f
∗
(
x
,
y
)
=
1
+
l
o
g
p
(
y
∣
x
)
f^∗(x,y)=1+log\ p (y|x)
f∗(x,y)=1+log p(y∣x) (Poole et al., 2019)。
f的常见选择包括bilinear critics f ( x , y ) = x T W y f(x,y)=x^TW y f(x,y)=xTWy(van den Oord等人,2018;Hénaff等人,2019;Tian等人,2019),separable critics f ( x , y ) = ϕ 1 ( x ) T ϕ 2 ( y ) f (x,y)=\phi _1(x)^T\phi_ 2(y) f(x,y)=ϕ1(x)Tϕ2(y)(Bachman等人。2019年),以及 concatenated critics f ( x , y ) = φ ( [ x , y ] ) f(x,y)=φ([x,y]) f(x,y)=φ([x,y])(Hjelm等人,2019年)(这里φ、φ1、φ2通常是浅层多层感知器(MLPs))。当应用这些估计器来解决(2)时,critic和编码器 g 1 、 g 2 g_1、g_2 g1、g2之间的界限可能是模糊的。(the line between the critic and the encoders g 1 , g 2 g_1,g_2 g1,g2 can be blurry.)例如,我们可以用n inner product critic f ( x , y ) = x T y f(x, y) = x ^Ty f(x,y)=xTy,但从 g 1 、 g 2 g_1、g_2 g1、g2的中间层提取特征,在这种情况下, g 1 、 g 2 g_1、g_2 g1、g2的 top layers形成了一个separable critic。然而,这个边界对于MI估计和学习表征的解释之间的相互作用是至关重要的。