《Modality-invariant temporal representation learning for multimodalsentiment classification》阅读笔记

最新推荐文章于 2023-10-19 19:40:44 发布

千千万万啊

最新推荐文章于 2023-10-19 19:40:44 发布

阅读量979

点赞数 13

分类专栏：多模态分类文章阅读笔记文章标签：笔记

本文链接：https://blog.csdn.net/cc272018282/article/details/130951290

版权

多模态分类文章阅读笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文提出了一种新型模型解决多模态情感识别中的挑战，包括有效提取模态间和模态内特征以及捕获模态不变表示。模型通过GloVe,COVAREP和FACET提取特征，一维卷积增强，InterME模块进行模态融合，GIMA模块利用门控交叉注意力实现模态交互，并通过KL散度约束学习模态不变表示。实验在多个数据集上展示了良好性能。

摘要由CSDN通过智能技术生成

原文连接：https://www.sciencedirect.com/science/article/pii/S156625352200207X

代码：https://github.com/kiva12138/MITRL

摘要

作者认为现有的情感识别算法大多探索性能良好的多模态融合方法，但仍然有两个关键的挑战需要克服。首先，必须在融合前有效的提取模态间和模态内的特征，同时减少特征的模糊性。第二个挑战是如何捕获相似特征的不变表示（modality-invariant representations）。作者提出了一种新的模型来克服这些问题。

什么是modality-invariant representations？

"modality-invariant representations"（模态不变表示）指的是在处理多模态数据时，将来自不同模态的特征信息融合成一种具有共性的、与具体模态无关的表示方式。这种表示方式能够同时描述多个模态数据的信息，从而提高了对数据的理解和表达能力。例如，我们可以将图像和文本作为两个不同的输入模态，通过模态不变表示方法，将它们映射到同一维度的向量空间中，即将图像和文本转换为“相似”的形式，以便于以后对它们进行比较、分类等任务。（我认为简单来说就是将不同模态的信息映射到同一个向量空间中。）

提出的方法

总体流程：

1.使用GloVe，COVAREP和FACET从文本，语音和视觉中提取出特征。维度为（batch_size，_，_）。

2.使用一维卷积来对三种的模态的特征进行进一步处理，以此来增强特征的表现。（作者认为一维卷积在分析顺序相邻的特征之间的关系和考虑全局信息方法会有更好的表现）

3.将上一步获得特征输入到作者提出的InterME模块中获得模态间特征。

4.随后将其输入到Modality-invariant temporal representation learning中获得模态不变表示。

5.通过平均池化对特征进行降维并输入到全连接层中得到最终的分类结果。

第1，2步是很简单的操作，此处不进一步进行描述了。

InterME模块

该模块简单来说就是将三种模态的特征，两两之间进行融合，每个模态得到两个不同的融合特征，最后通过去平均来获得该模态最终的融合特征。

GIMA模块如图（b）所示。模型首先接收两种不同模态的特征，并在其上添加上位置编码，随后通过交叉注意力来对两个模态的特征进行融合。作者在交叉注意力的基础上添加了一个门控机制（FBP Gate），作者想要通过该门控机制让模型自适应的决定两个模态之间是否存在很强的关系，同时过滤掉不相关的特征。此处的公式如下所示：