Stetman读论文小记:Understanding and Constructing Latent Modality Structures in Multi-Modal Representation

参与实验室相关课题精读的一篇论文。

全文介绍

        多模态学习中,如何将语言信息与图片信息相融合进行训练一直是研究的核心问题。现在主流的两种研究方向中,一种将两种模态的表示统一到一个编码器中,通常将图像和文本标记化为序列;另一种研究方法是用特定模态编码器分别表示图像和文本模态,并利用对比学习来调整模态,从而在多个下游应用中实现最先进的性能。

        尽管对比损失(Contrastive loss)被越来越多地用于从多种模态中学习表征,在极限情况下,对比损失的性质会促使模态在潜在空间中彼此完全匹配。然而,衔接和调整两种模态是否总能为下游任务带来益处(22年的一篇文章指出未必),模态对齐如何影响下游任务的表现仍是未决问题。 

        在本文中,基于信息论的论证,作者首先证明了对于下游预测任务来说,精确的模态对齐一般是次优的。因此,作者主张提高性能的关键在于有意义的潜在模态结构,而不是完美的模态对齐。为此,作者提出了三种构建潜在模态结构的通用方法:

        1)通过深度特征分离实现的模态内正则化 ;

        2)通过布朗桥进行的模态间正则化;

        3)通过几何一致性实现的内部间正则化;

并在两种流行的多模态表征学习框架上进行了广泛的实验:基于 CLIP 的双塔模型和基于 ALBEF 的融合模型。

构建潜在结构来改进多模态学习示例(如下图): 

模态差距对下游性能的影响 

符号简记

ZT:面向文字的专属编码器;

ZV:面向图片的专属编码器;

XT:对目标的文本描述;

XV:目标的图片;

Y:对目标物体的预期(如:目标物体为商品,Y可以是他的销售预期);

本文中,作者将(XV,XT,Y)的联合分布命名为联合分布p,即p=

:信息间隙,指这两种模式在预测目标变量Y方面所提供的效用差距;

:交叉熵损失;

:y预测的交叉熵损失;

关系:

实例分析

上图可以看出,改变gap未必会对性能造成影响

信息理论分析

作者发现,\Delta p只和p有关,独立于编码器ZV,ZT。

文中给出了如下定理:

对于一对模态编码器gT(·)和gV(·),如果多模态特征ZT = gT(XT)和ZV = gV(XV)在特征空间中完全对齐,即ZT = ZV,则:

原文: 

 模型

 作者在文中给出了三种有意义的潜在模型结构的构造设计,如下图所示:

1 通过深度特征分离实现的模态内正则化 

2 通过布朗桥进行的模态间正则化

3 通过几何一致性实现的内部间正则化

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值