Understanding and Constructing Latent Modality Structures in Multi-Modal Representation Learning
论文题目 | Understanding and Constructing Latent Modality Structures in Multi-Modal Representation Learning |
---|---|
翻译题 | 理解和构建多模态表征学习中的潜在模态结构 |
时间 | 2023年3月 |
作者 | Qian Jiang, Changyou Chen, Han Zhao, Liqun Chen, Qing Ping, Son Dinh Tran, Yi Xu, Belinda Zeng, Trishul Chilimbi |
摘要:对比损失广泛应用于多种模式学习表征。在限度内,对比损失的性质支持模态在潜在空间( latent space
)中完全匹配。然而,模态对齐如何影响下游任务性能仍然是一个悬而未决的问题。在本文中,基于信息论的论证,我们首先证明了精确的模态对齐在下游预测任务中通常是次优的。因此,我们主张更好性能的关键在于有意义的潜在模态结构,而不是完美的模态对齐。为此,我们提出了三种构建潜在模态结构的一般方法。具体地,我们设计了:1)用于模态内正则化的深度特征分离损失;2) 模态间正则化的布朗桥损失( Brownian-bridge loss
);3)模态内和模态间正则化的几何一致性损失。在两种流行的多模态表示学习框架上进行了大量实验:基于 CLIP
的双塔模型和基于 ALBEF
的融合模型。我们在各种任务上测试了我们的模型,包括 zero/few shot
图像分类、图像文本检索 ( image-text retrieval
) 、视觉问答、视觉推理 ( visual reasoning
) 和视觉蕴涵 ( visual entailment
) 。与现有方法相比,我们的方法实现了一致的改进,证明了我们提出的潜在模态结构正则化方法的有效性和可泛化性。
1. Introduction
视觉语言表示学习旨在从图像和文本中学习通用表示,从而有利于多模态下游应用程序。由于两种模态本质上来自不同的数据源和分布,如何有效地融合这两种模态已成为一个重要的问题。一些工作旨在统一一个编码器中两种模态的表示,其中通常将图像和文本标记为序列[58,59,63,64]。另一条研究方向是使用特定于模态的编码器分别表示图像和文本模态,并利用对比学习来对齐模态,在多个下游应用上实现最先进的性能[13,25,30,31,40,48,52,53,67]。
尽管在多模态表征学习中有成功的对比损失的经验实践,但连接和对齐这两种模态是否总能为下游任务带来好处仍然是一个悬而未决的问题。与这个问题密切相关的一个概念是模态差异( modality gap )[34,48,66,69],其中它被定义为两种模态的特征分布之间的距离。模态对齐( modality alignment )可以看作是减少模态差异( modality gap )的一种方式。乍一看,人们会猜测对比损失( contrastive loss )会通过将正的(配对的)图像和文本数据拉在一起以更好地表示来减少模态差异( modality gap )。然而,最近的一项研究[34]表明,对比学习并不总是减少模态差异。此外,我们在实证分析中还表明,减少模态差异并不一定能保证在下游应用程序中有更好的性能。受这些经验观察的启发,在本文中,我们首先从理论上研究了模态差异(modality gap)问题,表明当模态差异(modality gap)为零时,即两种模态之间的精确对齐,所学习的表示必然要为下游预测任务付出代价,我们称之为两种模态之间的信息差异(information gap) [定理 3.1 ]。直观地说,这是因为具有零模态差异( zero modality gap )的表示只能以丢失模态特定信息为代价来保留两种模态中存在的预测信息。
我们的理论表明,在多模态表示学习中,学习的表征是否有意义是一个重要因素,而不是精确的模态匹配。特别地,我们建议在正则化对比学习的基础上进行改进,以构建更好的潜在结构。我们考虑了模态内(intra-modality)、模态间(inter-modality)和模态内-模态间(intra-inter-modality)的正则化(regularization)。这些正则化是可泛化的(generalizable),并且可以应用于各种具有模态特定编码器的视觉语言模型(vision-language models)。具体来说,为了实现模态内正则化(intra-modality regularization),受到了我们的理论结果的启发,我们提出了深层特征分离,以促进模型在不同的组件中保留模态共享和模态特定信息。为了实现模态间正则化(inter-modality regularization),我们旨在将两种模态与其增强联系起来。因此,我们提出了一个布朗桥损失函数,用于三元组(文本、增强图像、图像)之间的正则化模态间结构(regularize the inter-modality structures)。为了实现模态内正则化(intra-modality regularization),我们引入了几何一致性损失(geometric consistency loss),该损失促进了潜在空间中的几何对称性(geometric symmetry)。综上所述,本文的主要贡献是:
- 我们进行了实证和理论分析,以了解模态对齐对下游任务的影响。我们发现,当两种模态之间的信息差距较大时 [定理3.1],减少模态差距并不总是能够保证更好的性能,反而可能会降低性能。结合现有的对比学习理论(contrastive learning ),我们的理论建议保留模态共享和模态特定的信息。
- 受我们理论的启发下,在对比损失(contrastive loss)的基础上,我们提出了模态内、模态间和模态内-模态间正则化三种工具正则化(instrumental regularizations )以改善潜在模态结构(latent modality structures)。
- 我们在各种视觉语言模型上进行了广泛而全面的实验,以表明所提出的方法在不同模型族(例如,
CLIP
和ALBEF
)和不同下游应用(例如,跨模态检索、VQA、VR 等)的基线上持续改进。
2. Related work
最近关于视觉-语言( vision-language )表示学习的研究可以根据如何使用联合学习对不同模态的信息进行分类。第一类应用统一模型 [58, 59, 63, 64] 来处理图像和文本,其中输入通常被分词为序列 [2, 47] 。统一模型具有更简单和更通用的设计,但通常表现不如具有模态特定编码器(第二类)的方法。这些方法对图像和文本使用单独的编码器(例如 CLIP
[40, 48, 52], ALIGN
[25]),并依靠对比损失[6, 20, 44]来对齐多个模态。这些方法已被证明在图像-文本检索上实现了最先进的( SOTA
)性能;但是,对于需要多模态间交互的多模态任务,(例如 VQA
),则缺乏支持。为了解决这个问题,最新的方法使用了一种混合的方式,其中模型具有单独的图像和文本编码器以及后期融合多模态编码器[13,30,31,53,67]。具体而言,融合编码器的训练通常采用图像-文本匹配( ITM
)损失和掩蔽语言建模( MLM
)损失。
后一类中的方法针对不同的模态使用单独的编码器。然而,这可能导致图像嵌入和文本嵌入位于联合潜在空间的不同区域的现象。在许多多模态模型中都可以观察到这种现象,称为模态差异( modality gap )[48, 66, 69]。最近的一项研究[34] 表明,模态差异从初始化开始就存在,并且可以在对比训练中保留。这自然带来了多情态模型的另一种变化——潜在的情态差异和模态结构。CyCLIP
[18] 提倡潜在模态结构的一致性。然而,据我们所知,还没有其他先前的工作从理论角度研究模态差异。在这项工作中,我们从经验实验和理论分析中表明,直接减少模态差异无助于提高性能。因此,我们建议研究潜在模态结构的影响,并提出三种方法来获得更有意义的潜在模态结构,从而改善下游应用。
3. Understanding the Impact of Modality Gap on Downstream Performance (了解模态差距对下游性能的影响)
尽管在实践中被广泛用作启发式 [34,66,67,69],但通过对比学习在特征空间中的模态对齐是否对下游性能是最优的仍然是一个悬而未决的问题[34]。在本节中,我们首先正式阐述了模态差异问题,提出了模态差异与下游任务性能之间关系的经验证据,然后通过提供信息理论分析来探讨其理论基础。
Notation 在整个论文中,我们将使用 X T X_T XT 和 X V X_V XV 分别表示与输入文本和图像相对应的随机变量。我们将使用 Y Y Y 来表示感兴趣的下游任务中的目标变量。例如,在网上购物的背景下, X T X_T XT 和 X V X_V XV 可以是产品的文本和视觉描述,在这种情况下, Y Y Y 是该产品的预期销售额。当处理具有多模态的数据时,我们经常使用模态特定编码器 g T g_T gT 和 g V g_V gV 来获得同一潜在空间中的特征,即 Z T = g T ( X T ) Z_T=g_T(X_T) ZT=gT(XT) 和 Z V = g V ( X V ) Z_V=g_V(X_V) ZV=gV(XV) 是从文本和视觉输入中提取的特征。在这项工作中,我们将重点放在来自不同模态的输入彼此配对的设置上,这意味着样本由来自潜在联合分布 p p p 的元组( x T x_T xT, x V x_V xV, y y y )组成。减少潜在空间中模态间隙的目标是缩小 Z T Z_T ZT 和 Z V Z_V ZV 之间的统计距离(例如,KL发散等)。
对于两个随机变量
X
T
X_T
XT 和
X
V
X_V
XV ,我们将
I
(
X
T
;
X
V
)
\Iota(X_T; X_V)
I(XT;XV) 定义为
X
T
X_T
XT 和
X
V
X_V
XV 之间的 Shannon
互信息。类似地,我们使用
H
(
Y
∣
X
T
,
X
V
)
H(Y | X_T, X_V)
H(Y∣XT,XV) 来表示给定两种模态作为输入的
Y
Y
Y 的条件熵。根据通常的实践,对于分类任务,
ℓ
C
E
(
y
^
,
y
)
\ell_{CE}( \hat{y} , y )
ℓCE(y^,y) 是在预测标签
y
^
\hat{y}
y^ 和 基本事实标签
y
y
y 之间的交叉熵。关于条件熵
H
(
Y
∣
X
T
,
X
V
)
H ( Y | X_T, X_V )
H(Y∣XT,XV) 和交叉熵损失 的一个有用的事实是以下变分形式[14, 70]:
H
(
Y
∣
X
T
,
X
V
)
H( Y | X_T , X_V )
H(Y∣XT,XV)
=
=
=
i
n
f
f
inf_f
inff
E
p
\Epsilon_p
Ep
[
ℓ
C
E
(
f
(
X
T
,
X
V
)
,
Y
)
]
[\ell_{CE} ( f( X_T, X_V), Y) ]
[ℓCE(f(XT,XV),Y)] ,其中下确界是在以
X
T
X_T
XT 和
X
V
X_V
XV 两者作为输入来预测目标
Y
Y
Y 的所有预测函数上,并且期望是在
(
X
T
,
X
V
,
Y
)
( X_T, X_V, Y )
(XT,XV,Y) 的联合分布
p
p
p 上。
3.1 Empirical Analysis on Modality Gap(模态差异的实证分析)
对于成对的多模态数据,文献[34,67,69]中探索的一个自然想法是使用对比预训练,将成对的多模态数据视为正对,将其他数据视为负对。目标是对齐正对,使它们在特征空间中彼此更接近,同时确保负对相距更远。更具体地说,设
(
x
T
,
x
V
,
y
)
( x_T, x_V, y)
(xT,xV,y) 和
(
x
T
′
,
x
V
′
,
y
′
)
(x\rq_T, x\rq_V, y\rq )
(xT′,xV′,y′) 是从联合分布中抽样的两个元组。然后,为了对齐两种模态,
(
x
T
,
x
V
)
(x_T, x_V)
(xT,xV),
(
x
T
′
,
x
V
′
)
(x\rq_T,x\rq_V)
(xT′,xV′) 被用作正对,而
(
x
T
,
x
V
′
)
(x_T, x\rq_V)
(xT,xV′) 和
(
x
T
′
、
x
V
)
(x\rq_T、x_V)
(xT′、xV) 被构造为负对。
基于对比损失原理[61,定理1],一个更好的模型应该具有更小的模态差异(更好的对齐)。然而,尽管在实践中被广泛用于预训练策略,但尚不清楚模态对齐如何影响感兴趣的下游任务。为了解决这一重要问题,我们首先进行了实验,探讨减少模态差异对图像/文本检索任务的影响。
我们在特征空间中绘制成对图像/文本数据之间的对齐关系,并计算它们之间的平均距离作为图2中的间隙测量。我们在 COCO [35] 数据集上进行预训练,并在 Flick30K [68] 测试集上评估零镜头(zero-shot retrieval)检索性能。我们在训练过程中优化了额外的对齐损失,
L
A
l
i
g
n
=
1
/
⟨
Z
T
,
Z
V
⟩
2
\mathcal{L}_{Align}=1/\lang Z_T,Z_V \rang^2
LAlign=1/⟨ZT,ZV⟩2,以减少模态之间的差距。我们通过调整对准损失的尺度来控制间隙。从图2可以看出,改变两种模态之间的间隙时,检索性能几乎没有变化。注意,当我们在特征空间中对数据进行归一化时,图中的模态差异是显著的。
3.2 An Information-Theoretic Analysis on Modality Gap(模态差异的信息论分析)
在受实证观察的启发下,我们推测,减少特征空间中的模态差异并不一定会带来更好的下游任务性能。尽管如此,从理论上理解何时以及在何种下游任务中减少模态差异可能是有益的。为此,我们首先定义信息差异
Δ
p
:
=
∣
I
(
X
T
;
Y
)
−
I
(
X
V
;
Y
)
∣
\Delta_p:=|\Iota(X_T; Y)-\Iota(X_V; Y)|
Δp:=∣I(XT;Y)−I(XV;Y)∣ 以表征两种模态在预测目标变量
Y
Y
Y 方面提供的效用差异。注意,根据定义,信息差异
Δ
p
\Delta_p
Δp 仅取决于联合分布
p
p
p ,即多模态预测问题本身,并且独立于模态编码器
g
T
g_T
gT 和
g
V
g_V
gV 。因此,它在模态学习过程中是一个常数。正如我们将很快看到的,如果我们试图找到允许零模态差异(zero modality gap)的特征,那么信息差异将作为下游预测误差的下限。从这个角度来看,信息差异是我们在不同模态之间使用完全一致的特征所要付出的代价。因此,它很好地对应了我们感兴趣的模态差异。我们现在可以把我们的定理陈述如下。
理论 3.1 对于一对模态编码器
g
T
(
⋅
)
g_T(·)
gT(⋅) 和
g
V
(
⋅
)
g_V(·)
gV(⋅) ,如果在特征空间中多模态特征
Z
T
=
g
T
(
X
T
)
Z_T=g_T(X_T)
ZT=gT(XT) 和
Z
V
=
g
V
(
X
V
)
Z_V=g_V(X_V)
ZV=gV(XV) 是完美对齐,即
Z
T
=
Z
V
Z_T=Z_V
ZT=ZV ,则
i
n
f
h
E
p
[
ℓ
C
E
(
h
′
(
X
T
,
X
V
)
,
Y
)
]
≥
Δ
p
inf_h \Epsilon_p[\ell_CE( h\rq (X_T, X_V), Y)] \geq \Delta_p
infhEp[ℓCE(h′(XT,XV),Y)]≥Δp 。
备注 我们讨论了上述定理的一些含义。在高水平上,定理3.1指出,如果两个模态之间的信息差距
Δ
p
\Delta_p
Δp 很大,那么我们希望通过使用模态对齐特征来实现的最佳预测误差至少比我们从输入模态中实现的预测误差大
Δ
p
\Delta_p
Δp 。特别是,当只有一个模态包含下游目标
Y
Y
Y 的预测信息时,强制完美模态对齐会使学习到的模态对齐特征
Z
T
Z_T
ZT 和
Z
V
Z_V
ZV 对
Y
Y
Y 不知情,导致较大的下游预测误差。直观地说,这种现象的发生是因为模态对齐在输入模态
X
T
X_T
XT 和
X
V
X_V
XV中强制对齐只包含都存在预测信息的特征。
在实践中,由于对比损失的使用和它的渐进行为[ 61,定理1 ],在无穷大数据量的极限下,对比损失将迫使正对完全对齐。在多模态学习的背景下,这意味着 定理3.1 中的假设
Z
T
=
Z
V
Z_T = Z_V
ZT=ZV 成立。最后,我们指出,定理3.1 中的完美对齐要求是不必要的;当特征
Z
T
Z_T
ZT 和
Z
V
Z_V
ZV 只是近似对齐时,下界可以扩展。
由于空间限制,我们将 定理3.1 的证明记录在附录A。事实上,从附录中的证明可以很容易地看出,我们可以进一步放宽 定理3.1 中的精确模态对齐条件。换句话说,只要
Z
X
Z_X
ZX 和
Z
Y
Z_Y
ZY 之间存在双射,则条件互信息(mutual information)满足
I
(
Z
V
;
Y
∣
Z
T
)
=
I
(
Z
T
;
Y
∣
Z
V
)
=
0
\Iota( Z_V ; Y | Z_T)=\Iota( Z_T ; Y | Z_V)=0
I(ZV;Y∣ZT)=I(ZT;Y∣ZV)=0 ,因此 定理3.1 中完全相同的下界将成立。
4. Method
受到 定理3.1 的启发,在本节中,我们提出构造有意义的潜在模态结构,而不是寻求精确的模态匹配。通过防止纯模态对齐,它们可以在学习可泛化的多模态表示中发挥重要作用。在下面,我们从不同的角度提出了三种设计来构建潜在的模态结构,考虑模态内和模态间的变化。我们在图3中看到了这些设计。我们首先介绍了我们开发方法的基本对比学习框架。继之前的工作[13,48]之后,我们采用了具有对比损失的多模态训练框架,该框架同时使用跨模态和模态内的对比损失,
即
L
C
o
n
=
1
4
(
L
V
2
T
+
L
T
2
V
+
L
V
2
V
+
L
T
2
T
)
\mathcal{L}_{Con} = \frac{1}{4}(\mathcal{L}_{V2T}+\mathcal{L}_{T2V}+\mathcal{L}_{V2V}+\mathcal{L}_{T2T})
LCon=41(LV2T+LT2V+LV2V+LT2T)
其中,
L
V
2
T
=
−
1
N
∑
j
=
1
N
l
o
g
e
⟨
z
V
j
,
z
T
j
⟩
/
τ
∑
k
=
1
N
e
⟨
z
V
j
,
z
T
k
⟩
/
τ
\mathcal{L}_{V2T}=-\frac{1}{N}\displaystyle\sum_{j=1}^Nlog\dfrac{e^{\lang z_{V_j}, z_{T_j} \rang/\tau} }{\textstyle\sum_{k=1}^Ne^{\lang z_{V_j}, z_{T_k}\rang/\tau}}
LV2T=−N1j=1∑Nlog∑k=1Ne⟨zVj,zTk⟩/τe⟨zVj,zTj⟩/τ
L
V
2
V
=
−
1
N
∑
j
=
1
N
l
o
g
e
⟨
z
V
j
,
z
V
j
a
⟩
/
τ
∑
k
=
1
N
e
⟨
z
V
j
,
z
V
k
⟩
/
τ
\mathcal{L}_{V2V}=-\frac{1}{N}\displaystyle\sum_{j=1}^N log \dfrac{e^{\lang z_{V_j}, z^a_{V_j} \rang/\tau} }{\textstyle\sum_{k=1}^Ne^{\lang z_{V_j}, z_{V_k}\rang/\tau}}
LV2V=−N1j=1∑Nlog∑k=1Ne⟨zVj,zVk⟩/τe⟨zVj,zVja⟩/τ
其中, N N N 为批大小; z V j z_{V_j} zVj 表示小批大小中的第 j 张图像的特征,其增加量 z V j a z^a_{V_j} zVja 和对应的文本特征 z T j z_{T_j} zTj 。剩余损失 ( L T 2 V , L T 2 T ) (\mathcal{L}_{T2V} , \mathcal{L}_{T2T}) (LT2V,LT2T) 定义方式相同,即在文本模态( T T T)和图像模态( V V V)之间切换。
4.1 Intra-modality Regularization via Deep Feature Separation
本小节旨在构造模态内结构以正则化模态内表示。基于 定理3.1,我们首先定义了两种类型的信息:由所有模态共享的模态信息和特定模态的模态独立信息。我们的动机源于我们的理论发现,由于模态无关信息的损失,精确的模态匹配是次优的。为了克服这一限制,我们建议显式地对模态无关的信息建模。我们通过将特征分离[4]的思想应用于多模态表示学习来实现这一点。我们的基本结构如图 3a 所示。在对比学习框架之上,我们使用额外的投影层( additional projection layers )来构建新的特征来存储这些信息。我们称之为独立的特征,这意味着它们包含独立于其他模态的特定模态信息。我们采取额外的约束,以确保 a) 独立的特征包含来自原始特征的互补信息(complementary information );b) 独立的特征是有意义的表示。
为了确保 a) ,我们将特征约束为与原始特征正交,使它们的内积(inner product)变小,即
⟨
u
,
v
⟩
\lang u, v \rang
⟨u,v⟩ = 0。我们定义小批量优化的正交损失(orthogonal loss)如下:
L
O
r
t
h
o
=
1
N
∑
j
=
1
N
(
⟨
z
V
j
,
z
V
j
i
⟩
2
+
⟨
z
T
j
,
z
T
j
i
⟩
2
)
\mathcal{L}_{Ortho} =\frac{1}{N}\displaystyle\sum_{j=1}^N(\lang z_{V_j} , z^i_{V_j} \rang^2+\lang z_{T_j} , z^i_{T_j} \rang^2)
LOrtho=N1j=1∑N(⟨zVj,zVji⟩2+⟨zTj,zTji⟩2)
其中
z
V
i
i
z^i_{V_i}
zVii 表示批处理中第 i 个图像特征的独立特征。
为了避免退化(degenerate)情况,其中从独立于其他模态的非信息噪声中学习独立的特征,我们进一步约束独立的特征是有信息的。为此,我们在独立特征上采用了对比损失(contrastive loss)和均匀性损失(uniformity loss),即,我们首先对独立的文本特征和独立的图像特征分别在模态中采用对比损失( contrastrive loss )。即,
L
C
o
n
i
=
L
V
2
V
i
+
L
T
2
T
i
L^i_{Con}=L^i_{V2V}+L^i_{T2T}
LConi=LV2Vi+LT2Ti
L
V
2
V
i
=
−
1
N
∑
j
=
1
N
l
o
g
e
⟨
z
V
j
i
,
z
V
j
i
a
⟩
/
τ
∑
k
=
1
N
e
⟨
z
V
j
i
,
z
V
k
i
⟩
/
τ
L^i_{V2V}=-\frac{1}{N}\displaystyle\sum^N_{j=1}log\dfrac{e^\lang z^i_{Vj}, z^{ia}_{Vj} \rang/\tau}{\textstyle\sum_{k=1}^N{}e\lang z^i_{Vj},z^i_{Vk} \rang/\tau}
LV2Vi=−N1j=1∑Nlog∑k=1Ne⟨zVji,zVki⟩/τe⟨zVji,zVjia⟩/τ
和
L
T
2
T
i
L^i_{T2T}
LT2Ti 的定义类似。然后我们用均匀性损失(uniformity loss)[62]增强独立特征,使成对高斯最大化[1,11]。这种均匀性损失(uniformity loss)支持学习的特征保留最大的信息:
L
U
n
i
i
=
l
o
g
1
N
∑
j
=
1
N
∑
k
=
1
N
G
t
(
z
V
j
i
,
z
V
k
i
)
+
G
t
(
z
T
j
i
,
z
T
k
i
)
,
L^i_{Uni}=log \dfrac{1}{N} \displaystyle\sum_{j=1}^N \sum_{k=1}^N G_t(z_{V_j}^i, z_{V_k}^i)+G_t(z_{T_j}^i , z_{T_k}^i) ,
LUnii=logN1j=1∑Nk=1∑NGt(zVji,zVki)+Gt(zTji,zTki),
其中
G
t
(
u
,
v
)
=
e
−
t
∣
∣
u
−
v
∣
∣
2
G_t(u, v) = e^{-t || u-v ||^2}
Gt(u,v)=e−t∣∣u−v∣∣2 是
t
=
2
t=2
t=2 的高斯核。通过这种方式,我们可以保留模态共享信息和模态无关信息。最终,我们获得了总的 loss:
L
S
e
p
=
L
O
r
t
h
o
+
L
C
o
n
i
+
L
U
n
i
i
L_{Sep} = L_{Ortho}+L_{Con}^i+L_{Uni}^i
LSep=LOrtho+LConi+LUnii。
4.2 Inter-modality Regularization via Brownian Bridge
接下来,我们考虑规范化模态间结构(inter-modality structures)。由于模态差异的存在,一个自然的想法是在某个子空间中约束成对的模态特征,以便它们更好地与其他特征对分离。为此(To this end),我们建议构建一个潜在的结构(latent structure)来明确地引导从图像模态到相关文本模态的转换(transition)。这种模态转换可以通过所谓的布朗桥[39,60]进行无缝建模(Such a modality transition can be seam-
lessly modeled by the so-called Brownian bridge),布朗桥是一种特殊类型的布朗运动,它在一对固定起点和终点(对应于我们设置中的两种模态)之间定义了随机路径(称为桥)的约束。我们的基本结构如图 3b 所示。
为了表达这一点,给定图像-文本特征对的两个随机变量
(
Z
V
,
Z
T
)
(Z_V, Z_T)
(ZV,ZT),我们将增强图像的特征表示为
Z
V
a
Z^a_V
ZVa 。我们定义了一条随机路径,使得
Z
V
a
Z^a_V
ZVa 被限制在
Z
V
Z_V
ZV 和
Z
T
Z_T
ZT 之间的路径上。从布朗桥的性质出发,给出了该形式的条件高斯分布:
p
(
Z
V
a
∣
Z
V
,
Z
T
)
=
N
(
Z
V
a
;
μ
(
Z
V
,
Z
T
,
t
)
,
t
(
1
−
t
)
I
)
(
1
)
p(Z^a_V | Z_V , Z_T)=\mathcal{N}( Z^a_V; \mu( Z_V, Z_T, t ), t(1-t)\Iota )\kern15em (1)
p(ZVa∣ZV,ZT)=N(ZVa;μ(ZV,ZT,t),t(1−t)I)(1)
其中
t
∈
[
0
,
1
]
t \in [0, 1]
t∈[0,1] 是一个超参数,它可以每次随机抽样,也可以固定为预定义的值(为了简单起见,我们在实验中将其固定为 0.25 );
μ
(
Z
V
,
Z
T
,
t
)
≜
t
Z
v
+
(
1
−
t
)
Z
T
∣
∣
t
Z
V
+
(
1
−
t
)
Z
T
∣
∣
\mu(Z_V, Z_T, t)\triangleq\dfrac{tZ_v+(1-t)Z_T}{|| tZ_V+(1-t)Z_T ||}
μ(ZV,ZT,t)≜∣∣tZV+(1−t)ZT∣∣tZv+(1−t)ZT ,并且应用归一化(Normalizer)将均值约束在超球面特征空间上。基于最大似然原理(maximal likelihood principle),为了拟合模型,我们可以简单地将
Z
V
a
Z^a_V
ZVa 与 (1) 中的布朗桥 (Brownian bridge) 的平均值对齐。当应用随机优化(stochastic optimization)时,最终在每个小批量上优化以下目标:
L
B
r
=
1
N
∑
j
=
1
N
∣
∣
z
V
j
a
−
μ
(
z
V
j
,
z
T
j
,
t
)
∣
∣
2
=
1
N
∑
j
=
1
N
t
⟨
z
V
j
,
z
V
j
a
⟩
+
(
1
−
t
)
⟨
z
T
j
,
z
V
j
a
⟩
t
2
+
(
1
−
t
)
2
+
2
t
(
1
−
t
)
⟨
z
V
j
,
z
T
j
⟩
L_{Br}=\dfrac{1}{N}\displaystyle\sum_{j=1}^N || z_{V_j}^a - \mu(z_{V_j}, z_{T_j}, t) ||^2 =\dfrac{1}{N}\displaystyle\sum_{j=1}^N \dfrac{t\lang z_{V_j}, z_{V_j}^a \rang + ( 1-t ) \lang z_{T_j , z_{V_j}^a} \rang}{t^2+(1-t)^2+2t(1-t)\lang z_{V_j}, z_{T_j} \rang}
LBr=N1j=1∑N∣∣zVja−μ(zVj,zTj,t)∣∣2=N1j=1∑Nt2+(1−t)2+2t(1−t)⟨zVj,zTj⟩t⟨zVj,zVja⟩+(1−t)⟨zTj,zVja⟩
4.3 Intra-Inter Regularization via Geometric Consistency(通过几何一致性的内部-内部正则化)
在前面的小节中,我们考虑了两种模态之间的模态内结构或模态间结构。有可能把这两种关系联系在一起吗?在本小节中,我们的目标是设计一个通用的正则化器,它同时考虑了模态内部结构和模态间结构。我们通过在模态表示和它们的增强之间强制几何对称(geometric symmetry)来实现这一目标。具体来说,我们在 CyCLIP
[18]中推广了这一思想,使其也包括了增强特征的几何一致性(geometric consistency),这在实验中得到了证明,从而实现了显著的改进。
具体来说,我们应用了两种类型的几何一致性损失,在以下设置中实现对称性。首先,我们通过优化不匹配的图像与文本对之间的相似性,以及图像对与文本对之间的相似性来增强原始模态特征之间的几何一致性。如图 3c 所示,我们通过支持几何一致性来实现这一点,即
⟨
z
V
1
,
z
T
2
⟩
∼
⟨
z
V
2
,
z
T
1
⟩
\lang z_{V_1}, z_{T_2} \rang \thicksim \lang z_{V_2}, z_{T_1} \rang
⟨zV1,zT2⟩∼⟨zV2,zT1⟩ 和
⟨
z
V
1
,
z
V
2
⟩
∼
⟨
z
T
1
,
z
T
2
⟩
\lang z_{V_1}, z_{V_2} \rang \thicksim \lang z_{T_1}, z_{T_2} \rang
⟨zV1,zV2⟩∼⟨zT1,zT2⟩ 其中
a
∼
b
a\thicksim b
a∼b 意味着
a
a
a 在某种意义上接近
b
b
b (定义如下)。我们在小批处理上定义以下几何一致性(geometric consisteny)目标:
L
G
C
=
1
N
∑
j
=
1
N
∑
k
=
1
N
[
(
⟨
z
V
j
,
z
T
k
⟩
−
⟨
z
V
k
,
z
T
j
⟩
)
2
+
(
⟨
z
T
j
,
z
T
k
⟩
−
⟨
z
T
j
,
z
T
k
⟩
)
2
]
L_{GC}=\dfrac{1}{N} \displaystyle \sum_{j=1}^N \sum_{k=1}^N[ ( \lang z_{V_j}, z_{T_k} \rang - \lang z_{V_k}, z_{T_j} \rang )^2 + ( \lang z_{T_j}, z_{T_k} \rang - \lang z_{T_j}, z_{T_k} \rang )^2 ]
LGC=N1j=1∑Nk=1∑N[(⟨zVj,zTk⟩−⟨zVk,zTj⟩)2+(⟨zTj,zTk⟩−⟨zTj,zTk⟩)2]
其次,优化增强特征的几何一致性。如图 3c 所示,我们优化了文本和图像空间中特征对和增强特征对之间的几何对称性(geometric consistency)。以下目标是用来实现这一目标的:
L
G
C
a
=
1
N
∑
j
=
1
N
∑
k
=
1
N
[
(
⟨
z
V
j
,
z
V
k
⟩
−
⟨
z
V
j
a
,
z
V
k
a
⟩
)
2
+
(
⟨
z
T
j
,
z
T
k
⟩
−
⟨
z
T
j
a
,
z
T
k
a
⟩
)
2
]
+
1
N
∑
j
=
1
N
(
⟨
z
V
j
,
z
T
j
⟩
−
⟨
z
V
j
a
,
z
T
j
a
⟩
)
2
L^a_{GC}= \dfrac{1}{N} \displaystyle \sum_{j=1}^N \sum_{k=1}^N [ ( \lang z_{V_j}, z_{V_k} \rang - \lang z^a_{V_j}, z^a_{V_k} \rang)^2 +( \lang z_{T_j}, z_{T_k} \rang - \lang z^a_{T_j}, z^a_{T_k} \rang)^2 ] + \dfrac{1}{N} \displaystyle \sum_{j=1}^N ( \lang z_{V_j}, z_{T_j} \rang - \lang z^a_{V_j}, z^a_{T_j} \rang )^2
LGCa=N1j=1∑Nk=1∑N[(⟨zVj,zVk⟩−⟨zVja,zVka⟩)2+(⟨zTj,zTk⟩−⟨zTja,zTka⟩)2]+N1j=1∑N(⟨zVj,zTj⟩−⟨zVja,zTja⟩)2
总的来说,几何一致性损失的总组合可以写成:
L
G
C
+
L
G
C
a
L_{GC}+L^a_{GC}
LGC+LGCa.
最终损失 我们现在可以通过将标准对比损失与我们提出的一个或几个模态正则化损失相结合来定义最终损失。每个正则化的效果可能是任务相关的,即某个任务可能从某个正则化中受益更多,我们将在下一节中全面展示。
5. Experiments
我们提出的方法是通用的。因此,我们选择用两种流行的多模态表示框架来评估它们:基于双塔的模型(例如 CLIP
)和基于融合的模型(例如ALBEF
),如图4所示。注意,在 CLIP
中,文本输入使用 EDA
增强[65]( EDA
是一种数据增强技术,主要用于增加数据量,帮助提高模型的泛化能力和鲁棒性),图像输入使用翻转和裁剪等随机增强。在 ALBEF
中,利用附加的动量编码器获得增强特征。
5.1 Two-Tower-based Models
对于这组实验,我们采用基于 CLIP
的模型,其中训练两个独立的编码器用来对齐图像和文本形式的特征。为了正则化潜在的模态结构,我们使用了的正则化损失与标准对比损失一起应用在预训练模型中。然后我们根据标准基准进行评估。
Setup 我们的 CLIP
模型采用 ResNet-50
[21]作为图像编码器,BERT
[12]作为文本编码器。我们采用 CyCLIP
的官方代码来合并我们的规范化,并重新生成基线。我们复制的 CLIP
结果与最近的工作一致[17,41],尽管它们略低于 CLIP
原始论文报道的结果。原因可能是我们使用的 GPU
数量不同,我们在 附录C.1 中提供了详细信息。对于这两个基线,我们可以在线性探测上再现更好的性能,但在零镜头传输(zero-shot transfer)上表现稍差,我们认为这是合理的。需要注意的是,所有方法在相同的代码库和超参数设置下进行,因此比较结果是公正的。
预训练:我们遵循之前工作的协议,使用 CC3M
[51]数据集预训练模型,该数据集包含 3 百万张 唯一图像和 4 百万张 图像-文本对。
5.1.1 Zero-shot Transfer Learning Evaluation
我们使用 CIFAR10
、CIFAR100
[29]和 ImageNet1K
[50] 数据集进行了零镜头迁移(zero-shot transfer)的实验。我们采用了提示(prompt)工程的标准评估策略。对于每个数据集,我们使用类名构建文本提示,例如:“[类别 名称]的一张照片”。对于每个类别,我们获得了规范化的类别文本嵌入。在评价过程中,预测与图像嵌入相似度得分最高类别的标签。根据之前的工作,我们报告了
K
=
1
,
3
,
5
K = 1, 3, 5
K=1,3,5 的
T
o
p
−
K
Top-K
Top−K 分类准确度。
如表1所示,我们的方法在三个数据集上都明显优于 CLIP
和 CyCLIP
,证明了潜在模态结构的重要性。同样有趣的是,我们的三个正则化子在不同的数据集中表现出的差异,即特征分离正则化器在 CIFAR10
中表现最好,而布朗桥正则化器对ImageNet1K
表现最好,几何一致性正则化器对于 CIFAR100
表现最好。
5.1.2 Natural Distribution Shift Evaluation(自然分布偏移评估)
我们进一步评估了具有移位分布的 ImageNet1K
数据集的变体[22,23,49,57]。这些数据集包含草图、卡通和对抗性生成的图像。如 表2 所示,与 表1 中原始 ImageNet1K
的性能相比,所有方法在自然分布偏移基准(Natural Distribution Shift Evaluation)上的性能都有所下降。尽管如此,我们的方法在所有基准测试中始终优于基线。与其他实验相比,我们的几何一致性正则化在所有基准上表现最好。
5.1.3 Linear Probing Evaluation(线性探测评估)
我们证明,更好的潜在结构也有利于领域内监督的下游任务。我们通过使用学习的视觉编码器将线性分类器与域内监督相匹配,在线性探测任务中对此进行评估。我们总共评估了14个标准基准(standard benchmarks)[3,9,10,15,24,27,29,38,42,43,46,50,54]。如 表3 所示,我们所有的方法都更优于所有基准测试的基线。值得注意的是(Remarkably),我们的深度特征分离正则化在这项任务上表现得特别好。我们认为,这在一定程度上是因为这种正则化可以学会保存更多的信息,这些信息可能对额外的域内监督有用。
5.2 Fusion-based Models(基于融合的模型)
接下来,我们将在基于融合的模型上测试我们的方法。我们采用 ALBEF
[31]框架,其中应用融合编码器来融合模态,如图 7b所示。已知,与简单的基于双塔的模型相比,这种基于融合的模型在学习模型间交互方面更强大。因此,我们评估了我们在各种视觉语言下游任务上的方法,包括 VQA
[19]、NLVR
[55]、SNLI-VE
[5]。在这里,我们合并了这些任务的所有三个正则化。我们还提供了小规模实验的消融研究。
Setup 我们使用 ViT-B/16
作为我们的视觉编码器,使用12层
B
E
R
T
b
a
s
e
BERT_{base}
BERTbase 作为文本编码器。请注意,
B
E
R
T
b
a
s
e
BERT_{base}
BERTbase 的前6层纯粹用作文本编码器,其余层用作融合编码器。为了进行公平的比较,我们复制了 ALBEF
和 CODIS
的结果。我们运行的所有实验都是在相同的代码库和超参数设置下进行的。详细信息见 附录C.2。
预训练:我们遵循之前的实验协议[13,31],使用四个数据集的联合进行预训练,其中包括概念字幕(CC3M
)[51]、视觉基因组(VG
)[28]、SBU
字幕[45]和 COCO
[35],构成 4 百万个唯一图像和 5 百万个图像-文本对。
5.2.1 Vision-Language Tasks Evaluation
视觉问答(VQA):我们在 VQA v2.0 上对预先训练的模型进行了微调和评估。在[8,13,31]之后,我们将 VQA 视为一个生成任务。在微调过程中,我们应用基于 6 层 Transformer
的解码器来生成答案。我们对训练集进行微调,并对测试开发和测试标准集进行评估。结果如表4所示。一贯地,我们的方法执行的最好,在测试开发和测试标准集上都实现了 1%
的改进。
用于视觉推理的自然语言(NLVR):我们使用 NLVR
数据集,该数据集包含10万个与网络图像配对的文本。为了使我们的模型能够对两个图像进行推理,我们按照[31]扩展具有 MLP
预测头的融合编码器,并执行额外的一个 epoch
的预训练,以在文本分配任务上准备融合编码器。如 表4 所示,我们的方法在 dev 集上实现了2%的改进,并且在 test-P 集上与 SOTA 的性能相匹配。
视觉蕴涵(VE):我们遵循[7,31],将其视为一个分为三类(蕴涵、中性、矛盾)的分类问题。因此,我们在融合编码器上采用了一个 MLP
预测头。同样,我们的方法与 val
集上的基线相当,并且优于测试集上的所有基线。
我们在 附录B 中提供了其他结果,包括构建潜在结构的分析和可视化,实验结果的可视化,以及消融研究。
6. 总结
在本文中,我们研究了多模态表示学习中的潜在模态结构。我们分析和检查了潜在特征空间中的模态差距,并揭示了将模态差距减少到零并不总是会带来更好的性能。相反,我们主张更有意义的潜在特征结构将有利于下游应用程序。因此,我们设计了三种正则化方法来构造有意义的潜在结构。我们建议从不同角度使用:1)深度特征分离损失;2)布朗桥损失;3)几何一致性损失对潜在特征(latent feature)进行改进。在图像分类、线性探测、视觉问题回答、视觉推理、视觉蕴涵等多种视觉语言任务上的大量实验证实了我们所提出的方法在流行对比表征学习框架上的有效性和可泛化性。