【多模态缺失】IF-MMIN:EXPLOITING MODALITY-INVARIANT FEATURE FOR ROBUST MULTIMODAL EMOTION RECOGNITION

EXPLOITING MODALITY-INVARIANT FEATURE FOR ROBUST MULTIMODAL EMOTION RECOGNITION WITH MISSING MODALITIES

CCF-B:ICASSP 2023

摘要

IF-MMIN:使用不变特征来弥补缺失的模态想象网络,包含两个新机制:①全模态场景下基于中心矩差异(CMD)距离的不变特征学习策略;②基于不变特征的想象模块(IF-IM)可以缓解缺失模态预测期间的模态间隙,从而提高多模态联合表示的鲁棒性。

关键词:多模态情绪识别、缺失模态想象、CMD、不变特征

引言

主要的两种模态缺失解决方法:①缺失数据生成②多模态联合表示学习。在[3]中,提出了一种编码器-解码器网络根据可用模态的高质量来生成缺失模态图像,在[7]中,研究了一种具有循环一致性损失的基于翻译的方法来学习模态之间的联合表示。在[1]中,研究了缺失模态想象网络(Missing Modality Imagination Network,简称MMIN),结合了上述两种方法,通过预测缺失模态来学习联合表示。

模态之间存在相同的信息,将模态不变特征引入到具有全模态数据的多模态情感识别中,表现出了显着的性能。[8]提出共享子空间来学习模态之间潜在的共性,以减少模态差距的影响。 [11]提出了离散共享空间来捕获细粒度的表示,以提高跨模式检索的准确性。所有研究都表明模态不变特征有效地弥合了模态差距。我们注意到,在缺失模态条件下,还没有相关的情感识别工作。

本篇提出具有不变特征的缺失模态想象网络(IF-MMIN)。首先通过使用基于中心矩差异(CMD)距离[12]的约束训练策略来学习各种模态之间的模态不变特征。然后设计 IF-MMIN 神经架构来根据可用模态预测缺失模态的不变特征。通过这种方式,充分探索可用的模态来缓解跨模态想象中的模态间隙问题,从而提高多模态联合表示的鲁棒性。在基准数据集 IEMOCAP 上的实验结果表明,所提出的方法在所有缺失模态条件下均优于最先进的基线模型。

主要贡献:

  • 提出基于CMD距离限制的训练策略来学习全模态中的模态不变特征。

  • 将不变特征加入跨模态想象过程来减少模态间隙的影响并增强多模态联合表示的鲁棒性

  • 实验表示IF-MMIN性能更好

IF-MMIN理论

IF-MMIN 方案首先在全模态信号下采用基于中心矩差异(CMD)距离的不变特征学习策略来学习模态特定和模态不变特征。在 IF-MMIN 训练期间,IF-IM 读取这两个特征,通过缺失的模态想象来学习鲁棒的联合表示。

1 基于CMD距离的不变特征学习

在这里插入图片描述

不变特征学习流水线包含三个模块:①特定encoder②不变encoder③分类器。特定encoder旨在从原特征 ( x a , x v , x t ) (x^a,x^v,x^t) (xa,xv,xt)中抽取高层次特征 ( h a , h v , h t ) (h^a,h^v,h^t) (ha,hv,ht);不变encoder采用特定模态特征为输入来抽取模态不变量 H = ( H a , H v , H t ) H=(H^a,H^v,H^t) H=(Ha,Hv,Ht);最后分类器基于H和h的拼接来预测情绪类别。经过预训练得到预训练的特定encoder和不边encoder。

1.1 特定&不变Encoder

E n c a Enc_a Enca使用LSTM和max-pooling层来抽取utterance-level的特征; E n c v Enc_v Encv和a使用相似结构; E n c t Enc_t Enct使用TextCNN;不变Encoder E n c ’ Enc’ Enc包含全连接层和激活函数、dropout层,旨在使用基于CMD距离限制策略 将特定模态特征映射到共享的子空间

1.2 基于CMD距离限制

目的是减少高层次特征 ( H a , H v , H t ) (H^a,H^v,H^t) (Ha,Hv,Ht) 之间的差异。CMD [12] 是一种最先进的距离度量,它通过匹配两个特征的有序矩差来测量两个特征的分布之间的差异。我们可以通过最小化 L c m d L_{cmd} Lcmd 来确保能学习到模态不变表示。其中 E ( H ) E(H) E(H) 是输入样本H的经验期望向量, C k ( H ) = E ( ( H − E ( H ) ) k ) C_k(H) = E((H − E(H))^k) Ck(H)=E((HE(H))k)是H坐标的所有k阶样本中心矩的向量。
在这里插入图片描述

2 IF-MMIN训练

IF-MMIN的整体架构如图2(a)所示,包括1)特异性编码器; 2)不变性编码器; 3)模态不变的特征感知想象模块,简称IFIM; 4) 分类器。
在这里插入图片描述

假设全模态输入为 x = ( x a , x v , x t ) x=(x^a,x^v,x^t) x=(xa,xv,xt),特定化encoder输入为 ( x a , x m i s s v , x t ) (x^a,x^v_{miss},x^t) (xa,xmissv,xt)来抽取特定模态特征 ( h a , h v , h t ) (h^a,h^v,h^t) (ha,hv,ht);不变化encoder输入为 ( h a , h v , h t ) (h^a,h^v,h^t) (ha,hv,ht),来预测模态不变特征 H ’ H’ H,h和H’融合送入IF-IM来预测缺失模态h’;IF-IM中间层的隐特征拼接后得到联合表示C,用于预测情绪策略O。

为了确保 IF-MMIN 中模态不变特征预测和缺失模态想象过程的稳定性,想象损失 L i m g L_{img} Limg,不变损失 L i n v L_{inv} Linv,分类损失 L c l s L_{cls} Lcls。其中架构图的蓝色锁表示固定参数。

2.1 不变特征感知想象模块

如图2(b)所示,IF-IM由级联自动编码器组成,其中包括M个自动编码器。与[1]不同的是,IF-IM同时读取h和H′。此外,H’是给予每个自编码器的级联输入,以帮助缺失的模态想象并缓解模态间隙问题。每个自动编码器表示为 ω i , i = 1 , 2 , . . . , M ω_i, i = 1,2,...,M ωi,i=1,2,...,M ,每个自编码器的计算可以定义为:
在这里插入图片描述

2.2 损失函数

在 IF-MMIN 训练过程中,分类损失 L c l s L_{cls} Lcls 用于以情感类别目标 O ^ \hat O O^ 来监督训练: L c l s = C r o s s E n t r o p y ( O , O ^ ) L_{cls} = CrossEntropy(O, \hat O) Lcls=CrossEntropy(O,O^)。Imagination Loss: L i m g L_{img} Limg 用于最小化 IF-IM 输出 h′ 与缺失模态 x v x^v xv 的模态特定特征之间的距离: L i m g = R M S E ( h i ′′ , h i ′ ) L_{img}= RMSE (h^{′′}_i , h^′_i) Limg=RMSE(hi′′,hi),而 Invariance Loss: L i n v L_{inv} Linv旨在迫使全模态信号的预测模态不变特征 H′ 和目标模态不变特征 H 彼此接近: L i n v = R M S E ( H i , H i ′ ) L_{inv} = RMSE (H_i, H^′_i) Linv=RMSE(Hi,Hi),总损失函数如下:#
在这里插入图片描述

实验

1 实验设置

使用EMOCAP情感数据集,与[1]中的相似,原始特征xa、xv和xt是130维的OpenSMILE [16]特征,配置为“IS13 ComParE”,由预训练的DenseNet模型提取的342维的“Denseface”特征[17]和 1024-dim BERT 词嵌入。

特定编码器 Enca 和 Encv 的隐藏大小设置为 128,Enct 包含 3 个卷积块,内核大小为 3,4,5,输出大小为 128。不变编码器 Enc’ 输出的大小 H 为 128。 IF -IM 由 5 个大小为 384-256-128-64-128-256-384 的自动编码器组成,其中隐藏向量大小为 64。分类器包括 3 个大小为 {128,128,4} 的全连接层。由于 L i n v L_{inv} Linv 的值比 L i m g L_{img} Limg 小很多(约 1%),因此我们将 λ1 设置为 1,λ2 设置为 100,以平衡数值差异并提高 L i n v L_{inv} Linv 在总损失中的重要性。批量大小为 128,dropout 率为 0.5。我们采用具有动态学习率且初始率为0.0002的Adam优化器[18],并使用Lambda LR[19]来更新学习率。我们进行所有实验,包括不变特征学习和 IF-MMIN 训练,并进行 10 折交叉验证,其中每折包含 40 个epoch。为了证明我们模型的鲁棒性,我们将每个模型运行三次,以减轻参数随机初始化的影响。我们在验证集上选择最佳模型并报告其在测试集上的性能。所有模型均使用 Pytorch 深度学习工具包实现,并在单个 NVIDIA Tesla P100 显卡上运行。

2 对比研究

我们开发了三种多模式情感识别系统进行比较研究。 1)MCTN [7]通过缺失模态和可用模态之间的循环翻译来学习联合表示; 2)MMIN [1]是针对缺失模态问题的最先进模型,它通过自动编码器和循环一致性学习通过跨模态想象来学习联合表示; 3) MMIN w/o Cycle [1] 删除了 MMIN 的循环一致性学习部分,只保留了前向缺失模态想象过程,这与我们的 IFMMIN 相当。

3 不确定缺失模态的主要结果

为了在不同的缺失模态测试条件下验证我们的 IF-MMIN [1],我们以加权精度 (WA) [20] 和未加权精度 (UA) [ 的形式报告所有结果。如表 1 第 2 行至第 5 行所示,我们的 IFMMIN 在所有缺失模态测试条件下均达到最高平均值。对于每个条件,IF-MMIN 也优于除条件 {a} 和 {v} 之外的所有基线,在这两个条件下,IF-MMIN 与最佳基线相当。可能的原因是文本模态比音频和视觉模态包含更多的语义信息[22]。简而言之,所有结果都表明 IF-MMIN 可以学习鲁棒的多模态联合表示,通过引入模态不变特征来缓解模态差距,从而在不同的缺失模态测试条件下实现出色的性能
在这里插入图片描述

4 消融实验

IF-MMIN 利用不变特征 H′ 并添加不变损失 Linv 来增强缺失的模态想象,而 IF-IM 采用级联输入的不变特征 H′。为了验证他们的贡献,我们进行了以下消融实验:1)IF-MMIN w/o Linv 系统在 IF-MMIN 训练期间丢弃 Linv。 2) IF-MMIN w/o 级联输入系统仅将 H′ 作为第一个自动编码器的输入,而不是 IF-IM 中每个自动编码器的输入。如表 1 第 5 行至第 7 行所示,在大多数情况下,IF-MMIN 的性能也优于无 Linv 的 IF-MMIN 和无级联输入的 IF-MMIN,这证实了 1) IF-MMIN 的不变性编码器可以在Linv约束下预测准确的不变特征,从而更好地服务于IF-IM; 2)级联输入可以在每一层自编码器工作时提供先验知识,确实增强了IF-IM的想象能力。

5 可视化分析

不变特征学习的准确性是IF-MMIN良好工作的前提。因此,为了验证不变特征学习相关模块(包括Lcmd、Linv、H′和H)的作用,我们对IF-MMIN进行了以下可视化实验。我们使用 t-SNE 算法在二维平面上可视化六种缺失条件下的 H′ [23],如图 3(a)所示。我们从测试集中随机选择 600 个句子,每个条件 100 个句子,并提取 600 个不变特征 H′。因此,有 600 个数据点在图 3(a),每种颜色 100 个点。观察到,在各种条件下,所有 H’ 在特征分布方面都形成了清晰的聚类。图3(b)显示了Linv在IF-MMIN训练期间的收敛轨迹,其中x轴代表epoch,y轴代表损失值。图中平滑的曲线表明H′和H在训练过程中相互接近,从而进一步证明了Linv的有效性。由于H是在Lcmd的约束下学习的,因此也证明了Lcmd的有效性。
在这里插入图片描述

结论

这项工作研究了一种新颖的不变特征感知多模态情感识别模型(IF-MMIN),其中包括基于 CMD 的基于距离的不变特征学习和不变特征感知缺失模态想象模块(IF-IM)。通过利用不变特征,我们的 IF-MMIN 可以减轻模态差距并提高多模态联合表示的鲁棒性。 IEMOCAP 上的实验结果表明,所提出的 IF-MMIN 在各种缺失模态条件下优于最先进的基线。在未来的工作中,我们将探索进一步改进不变特征学习的方法。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值