参与实验室相关课题精读的一篇论文。
全文介绍
多模态学习中,如何将语言信息与图片信息相融合进行训练一直是研究的核心问题。现在主流的两种研究方向中,一种将两种模态的表示统一到一个编码器中,通常将图像和文本标记化为序列;另一种研究方法是用特定模态编码器分别表示图像和文本模态,并利用对比学习来调整模态,从而在多个下游应用中实现最先进的性能。
尽管对比损失(Contrastive loss)被越来越多地用于从多种模态中学习表征,在极限情况下,对比损失的性质会促使模态在潜在空间中彼此完全匹配。然而,衔接和调整两种模态是否总能为下游任务带来益处(22年的一篇文章指出未必),模态对齐如何影响下游任务的表现仍是未决问题。
在本文中,基于信息论的论证,作者首先证明了对于下游预测任务来说,精确的模态对齐一般是次优的。因此,作者主张提高性能的关键在于有意义的潜在模态结构,而不是完美的模态对齐。为此,作者提出了三种构建潜在模态结构的通用方法:
1)通过深度特征分离实现的模态内正则化 ;
2)通过布朗桥进行的模态间正则化;
3)通过几何一致性实现的内部间正则化;
并在两种流行的多模态表征学习框架上进行了广泛的实验:基于 CLIP 的双塔模型和基于 ALBEF 的融合模型。
构建潜在结构来改进多模态学习示例(如下图):
模态差距对下游性能的影响
符号简记
ZT:面向文字的专属编码器;
ZV:面向图片的专属编码器;
XT:对目标的文本描述;
XV:目标的图片;
Y:对目标物体的预期(如:目标物体为商品,Y可以是他的销售预期);
本文中,作者将(XV,XT,Y)的联合分布命名为联合分布p,即p=
:信息间隙,指这两种模式在预测目标变量Y方面所提供的效用差距;
:交叉熵损失;
:y预测的交叉熵损失;
关系:
实例分析
上图可以看出,改变gap未必会对性能造成影响
信息理论分析
作者发现,只和p有关,独立于编码器ZV,ZT。
文中给出了如下定理:
对于一对模态编码器gT(·)和gV(·),如果多模态特征ZT = gT(XT)和ZV = gV(XV)在特征空间中完全对齐,即ZT = ZV,则:
原文:
模型
作者在文中给出了三种有意义的潜在模型结构的构造设计,如下图所示: