Stetman读论文小记:Decoupled Multimodal Distilling for Emotion Recognition

参与实验室相关课题精读的一篇论文。

        文中,作者认为,原有多模态互补的情感识别方法实现了编码集成不同模态以实现模态互补,但不同模态间的异质性导致学习难度大的问题仍然存在。为此,作者提出了一种解耦的多模态蒸馏(DMD)方法来跨模态学习,如图所示:

 

   作者总结文章贡献为:

1.提出了一种解耦的多峰蒸馏框架-解耦多模式蒸馏(DMD),以为稳定MER实现跨模态学习蒸馏。在DMD中,作者明确地将多模式表示解耦为模态无关/排他性空间,以促进两个解耦的空间知识蒸馏。DMD提供了一种灵活的、知识转移方式中的蒸馏,可以自动学习方向和权重,从而实现灵活的知识转移模式。

2.DMD方法在每个模态空间中都部署了图蒸馏单元(GD),使得跨模态知识提取可以,以更加专业和有效的方式进行。为了简化整个学习过程,模型分别设置齐次图蒸馏单元HomoGD与异构图图蒸馏单元HeteroGD,同时通过它们使我们能够明确地探索每个解耦空间中不同模态之间的相互作用。

背景知识 

在阅读这篇文章的时候,特意补了一下背景知识,下面放一下之前学习看的比较nice的帖子。

1.MER,这里有一篇讲21年多模态情感识别的综述的博客多模态情感识别数据集和模型(下载地址+最新综述2021.8)_鬼扯子的博客-CSDN博客

2.知识蒸馏,个人觉得这两个博客写的特别好:

知识蒸馏(Knowledge Distillation)_琉璃幻的博客-CSDN博客 

知识蒸馏介绍及比较_Weiyaner的博客-CSDN博客 

3.BERT和Transformer

 BERT详解:概念、原理与应用__StarryNight_的博客-CSDN博客

一文读懂BERT(原理篇)_废柴当自强的博客-CSDN博客 

Transformer结构解析_transformer模型结构__StarryNight_的博客-CSDN博客 

 模型

1 多模式特征解耦

        文章考虑三种模式,即语言(L)、视觉,(V) ,声学(A)。首先,利用三个独立的1D时域卷积层来聚合时间信息,并获得低阶多模态特征:,其中m∈{L,V,A}表示模态。在这种浅编码之后,每个模态都保留了输入的时间维度,以便于处理未对齐的和,同时对齐的病例。此外,所有模式都是,缩放到相同的特征尺寸,即dL=dV=dA=d,以便于后续特征解耦。

         将多模态特征解耦为共模态(模态无关)部分和异构部分(模态特有)

文章利用了一个共享的多模式编码器和三个专用编码器对解耦特征的精确预测,即有:

 

 我们在每个模态下将相连接,并设置了一个专属解码器Dm生产耦合特征。即:

 随后,耦合特征将通过专用编码器重新编码以返回异质性特征。符号[.],表示特征串联。形式上,耦合多模式特征可以公式化为:

 

同时,异构特征可以公式化为:

对于上述重构损失,仍然不能保证特征完全解耦。事实上,信息,可以在表示之间自由泄漏。我们认为,来自相同情感但不同形式的同质表达应该,比那些来自相同模态但不同情绪的人更相似。为此,我们将损失定义为 : 

 

其中我们收集一个三元组集: 

m[i]是样本i的模态,c[i]是样本i的类标签,cos(·,·)表示两者之间的余弦相似性特征向量 。上公式定义的损失实现了限制同质特征属于同一情感但不同模态,反之亦然以不同,从而避免衍生琐碎的同质特征。α是边际距离,其定义阳性样本的距离(相同情绪;不同模态)被限制为小于阴性样本(相同模态;不同情绪)的模态。

最后,作者将以上约束条件结合起来形成去卷积损失(其中γ是平衡因子):  

 

2 具有解耦多模式特征的图蒸馏单元(GD) 

 HomoGD:如结构图中所示,对于解耦的齐次特征,由于不同模式之间的分布差距已经充分减少,我们将特征和相应 放入图蒸馏单元,并根据下式计算图形边缘矩阵W和失真损失矩阵E:

 

其中[·,·]表示特征级联,g是具有可学习参数θ2的全连通(FC)层,并且,f是参数为θ1的回归logits的FC层。图边权W:可以通过反复应用上等式来构造和学习,模态对。为了减少规模效应,我们通过soft-tmax操作使W正常化 。进一步,所有模态的图蒸馏损失可以写成:

其中表示元素乘积。显然,GD单元中的分解图为动态模态间交互学习提供了基础,。同时,它提供了一种灵活的知识转移方式,可以自动学习干扰强度,从而使知识转移模式多样化。依据上式,我们也能计算出蒸馏损失Ldtl。
 

 HeteroGD:解耦异构特征关注每个模态的多样性和独特性,因此会有显著的分布差距。作者利用多模态变换器来弥补特征分布的差距。多模态变换器的核心是跨模态注意单元(CA),它从一对模态中重新接收特征并融合跨模态信息:以语言模态为源,视觉模态为目标,跨模态注意可以定义为:,和。 Pq、Pk、Pv是可学习的参数。

 

是从语言到视觉的增强特征,d表示QV和KL的维度。

 在MER的这三个模态中,每种模式都将通过,另外两个以及由此产生的特征将被连接起来。对于每个目标模态,我们将来自其他模态的所有增强特征连接到目标,作为巩固特征,表示为。同时,我们可以利用他们根据与之前相同的方法 求出蒸馏损失。

特征融合 :我们利用进行自适应特征融合,从他们每个人身上学到的权重参数,据此,我们获得用于多模式情感识别的融合特征。

 

 

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值