统一模态
前言:
多模态成对的数据是非常有限的!
现有的模型预训练方法要么专注于单模态任务,要么专注于多模态任务,不能有效地相互适应。
(多模态任务模型应用于单模态任务上,效果会大大下降, , 多模态模型如何应用到单模态的任务上呢?多模态训练的模型不是必须要有两种不同的输入才行,只属于一种不行吧?。。)
它们只能使用单模态数据(即文本或图像)或有限的多模态数据(即图像-文本对)。
提出了一种 UNIfied-Modal 预训练架构,即 UNIMO,它可以有效地适应单模态和多模态的理解和生成任务。
利用大规模的自由文本语料库和图像集合来提高视觉和文本理解能力,并利用跨模态对比学习(CMCL)将文本和视觉信息对齐到统一的语义空间中,在图像-文本对的语料库上增加了相关的图像和文本。
跨模态对比学习(CMCL)??
在丰富的非配对单模态数据的帮助下,模型能够通过允许文本知识和视觉知识在统一语义空间中相互增强来学习更多可概括的表示。
实验结果表明,UNIMO 大大提高了 几个单模态和多模态下游任务
的性能。
文本知识和视觉知识通常可以相辅相成。
如图 1 所示,仅凭图像中的视觉信息很难正确回答问题。 但是,如果我们将视觉信息与描述棒球比赛背景的文本信息联系起来,就很容易确定正确答案。 此外,视觉信息可以更容易地理解文本描述的场景。 Van Ackeren 等人的神经科学研究。 (2018) 揭示了人类大脑中负责视觉的部分可以学习处理其他类型的信息,包括触觉和声音。 受这项研究的启发,我们建议设计一种统一模态架构 UNIMO,旨在用一个模型处理多场景和多模态数据输入,包括文本、视觉和视觉和语言数据,如图 2 所示。
统一不同模态的最大挑战是将它们对齐并统一到相同的语义空间中,这些空间可推广到不同的数据模态。
现有的跨模态预训练方法试图通过简单的图像文本匹配和掩码语言建模仅基于有限的图像文本对来学习跨模态表示(Chen 等,2020b)。 他们只能学习图像-文本对的特定表示,因此无法推广到单模态场景。
因此,当应用于语言任务时,它们的性能会急剧下降…
UNIMO 有效地利用大规模的文本语料库和图像集合来学习一般的文本和视觉表示。
CMCL 对齐视觉表示和文本表示,并基于图像-文本对将它们统一到相同的语义空间中。
cmcl 咋做的 ??
如图 3 所示,为了促进视觉和语言之间不同级别的语义对齐,
利用一系列文本重写技术来提高跨模态信息的多样性。
具体来说,对于图像-文本对,可以通过在不同级别重写原始标题来获得各种正例和硬负例。
正例?
硬负例?
此外,为了结合来自单模态数据的更多背景信息,还应用了文本和图像检索来用各种相关的文本和图像来增强每个图像-文本对。
还用到了文本和图像检索?
图像和文本检索还用于从单模态数据中获取相关图像 X I X^I XI 和文本 X T X ^T XT ,在跨模态学习期间将其视为 单模态正样本
。 所有这些都由相同的统一模态 Transformer 成对或单独编码,并提取图像和文本的表示以计算对比损失。
正对、负对、相关图像和文本由 CMCL 联合学习。这样,我们的模型可以有效地将不同层次的视觉和文本表示统一到同一个语义空间中,并结合更多的单模态知识来相互增强。
与之前的方法相比,统一模态架构主要有以下优点:
- 我们可以利用网络上的大规模非配对文本语料库和图像集合来学习更具概括性的文本和视觉表示,并提高视觉和语言理解和生成的能力。
- 我们的模型可以针对单模态和多模态理解和生成下游任务进行有效微调。
- 视觉知识和文本知识可以相互增强,在几个单模态和多模态任务上比以前的方法有更好的表现。
如图 所示,UNIMO 采用多层自注意力转换器来学习文本和视觉数据的统一语义表示。对于文本输入
W
W
W,首先通过字节对编码 (BPE) ?? 将其拆分为子字序列
W
=
{
[
C
L
S
]
,
w
1
,
.
.
.
,
w
n
,
[
S
E
P
]
}
W = \{[CLS],w_1,...,w_n,[SEP]\}
W={[CLS],w1,...,wn,[SEP]} ,然后利用自注意力机制来学习上下文标记表示
{
h
[
C
L
S
]
,
h
w
1
,
.
.
.
,
h
w
n
,
h
[
S
E
P
]
}
\{h[CLS], hw1, ..., hwn, h[SEP ]\}
{h[CLS],hw1,...,hwn,h[SEP]}。特殊标记$ [CLS]$ 和 $[SEP] $分别表示文本序列的开始和结束。类似地,对于一张图像 V,首先将其转换为一系列区域特征
V
=
{
[
I
M
G
]
,
v
1
,
.
.
.
,
v
t
}
V = \{[IMG], v1, ..., vt\}
V={[IMG],v1,...,vt}(
[
I
M
G
]
[IMG]
[IMG] 表示整个图像的表示),然后自利用注意力机制来学习上下文区域表示
{
h
[
I
M
G
]
,
h
v
1
,
.
.
.
,
h
v
t
}
\{h[IMG],hv_1,...,hv_t\}
{h[IMG],hv1,...,hvt}。与之前的工作(Chen 等人,2020b)类似,我们使用 Faster R-CNN来检测显着图像区域并提取每个区域的视觉特征(汇集的 ROI 特征)。
对于图像文本对
(
V
,
W
)
(V, W)
(V,W),其视觉特征和文本标记连接为序列
{
[
I
M
G
]
,
v
1
,
.
.
.
,
v
t
,
[
C
L
S
]
,
w
1
,
.
.
.
,
w
n
,
[
S
E
P
]
}
\{[IMG],v1,...,vt,[CLS],w1,...,wn,[SEP ]\}
{[IMG],v1,...,vt,[CLS],w1,...,wn,[SEP]}。
图像文本对直接拼接
然后将序列输入多层 Transformer 网络以学习文本标记和图像区域的跨模式上下文表示。我们分别提取表示
h
[
I
M
G
]
h[IM G]
h[IMG] 和
h
[
C
L
S
]
h[C LS ]
h[CLS] 作为图像
V
V
V 和文本
W
W
W 的语义表示。
Faster R-CNN(Ren 等人,2016 年)来检测显着图像区域并提取每个区域的视觉特征(汇集的 ROI 特征)
Faster R-CNN 如果检测出了几个区域,那这几个区域的特征都会提取出来?拼接?顺序?)
Cross-Modal Contrastive Learning
统一不同模式的最大挑战是在不同层次上对齐和统一它们的表示。
对于图 2 所示的示例,模型不仅需要将整个图像中显示的场景连接到描述棒球比赛的文章,还需要将图像中的两人及其位置关系与“棒球运动员”对齐、“裁判”和“背后”分别在文中。
几种现有的跨模态预训练方法试图通过基于有限的图像-文本对语料库的简单图像-文本匹配
来对齐视觉和文本表示。他们从每个图像文本对的同一训练批次中随机抽取负图像或文本,并利用分类器确定图像和文本是否匹配。
由**于随机采样的负面文本或图像通常与原始文本或图像非常不同,因此它们只能学习文本和视觉表示之间非常粗略的对齐方式。**在这项工作中,我们提出了一种新的 CMCL 方法来将不同级别的文本和视觉表示对齐和统一到相同的语义空间中。
由于随机采样的负面文本或图像通常与原始文本或图像非常不同,因此它们只能学习文本和视觉表示之间非常粗略的对齐方式。
主要思想是让配对的图像和文本的表征靠近表征空间,而非配对的远离。 图像 V V V 和文本 W W W 的表示用于计算它们之间的相似性以测量它们的距离 d ( V , W ) d(V, W) d(V,W)。
与正负图像文本对不同,检索到的图像和文本被单独编码,因为它们主要带有弱相关性,如图 3 右侧部分所示。
在预训练期间,图像集合、文本语料库和图像-文本对的样本以 1:1:5 的比例随机混合在一起。 语言学习、视觉学习和跨模态对比学习(CMCL)的目标是联合训练的。
UNIMO-Base 和
对于 CMCL,每个正图像-文本对通过文本重写附加几个硬负样本,以及通过图像/文本检索附加几个正图像和文本。
训练批次中其他图像-文本对的所有样本也被视为负样本(包括负图像和负文本),对于 UNIMO-base 超过 6K,对于 UNIMO-Large 超过 3K。 对于图文对(V, W),CMCL loss LCMCL(V,W)的详细公式如下:
−
l
o
g
p
o
s
P
+
p
o
s
I
+
p
o
s
T
(
p
o
s
P
+
p
o
s
I
+
p
o
s
T
)
+
(
n
e
g
P
+
n
e
g
I
+
n
e
g
T
)
-log\frac{pos_P + pos_I + pos_T}{(pos_P + pos_I + pos_T) + (neg_P + neg_I + neg_T)}
−log(posP+posI+posT)+(negP+negI+negT)posP+posI+posT
样本之间距离计算:
d
(
V
,
W
)
d(V, W)
d(V,W)
这个距离函数可以举个例子吗?
其中
p
o
s
P
pos_P
posP 、
p
o
s
I
pos_I
posI 和
p
o
s
t
T
post_T
postT 分别表示正图像-文本对
X
+
X^ +
X+、相关图像
X
I
X ^I
XI 和相关文本
X
T
X ^T
XT 的分数。 此外,
n
e
g
P
neg_P
negP、
n
e
g
I
neg_I
negI 和
n
e
g
T
neg_T
negT 分别表示负图像-文本对
X
−
X^-
X−、负图像
Y
I
Y^I
YI 和
负
文
本
Y
T
负文本 Y^T
负文本YT 的分数。 目标是最大化正分
p
o
s
P
+
p
o
s
I
+
p
o
s
T
pos_P + pos_I + pos_T
posP+posI+posT ,同时最小化负分
n
e
g
P
+
n
e
g
I
+
n
e
g
T
neg_P +neg_I +neg_T
negP+negI+negT ,同时帮助对齐和统一视觉和文本表示空间。