原文连接:https://www.sciencedirect.com/science/article/pii/S156625352200207X
代码:https://github.com/kiva12138/MITRL
摘要
作者认为现有的情感识别算法大多探索性能良好的多模态融合方法,但仍然有两个关键的挑战需要克服。首先,必须在融合前有效的提取模态间和模态内的特征,同时减少特征的模糊性。第二个挑战是如何捕获相似特征的不变表示(modality-invariant representations)。作者提出了一种新的模型来克服这些问题。
什么是modality-invariant representations?
"modality-invariant representations"(模态不变表示)指的是在处理多模态数据时,将来自不同模态的特征信息融合成一种具有共性的、与具体模态无关的表示方式。这种表示方式能够同时描述多个模态数据的信息,从而提高了对数据的理解和表达能力。例如,我们可以将图像和文本作为两个不同的输入模态,通过模态不变表示方法,将它们映射到同一维度的向量空间中,即将图像和文本转换为“相似”的形式,以便于以后对它们进行比较、分类等任务。(我认为简单来说就是将不同模态的信息映射到同一个向量空间中。)
提出的方法
总体流程:
1.使用GloVe,COVAREP和FACET从文本,语音和视觉中提取出特征。维度为(batch_size,_,_)。
2.使用一维卷积来对三种的模态的特征进行进一步处理,以此来增强特征的表现。(作者认为一维卷积在分析顺序相邻的特征之间的关系和考虑全局信息方法会有更好的表现)
3.将上一步获得特征输入到作者提出的InterME模块中获得模态间特征。
4.随后将其输入到Modality-invariant temporal representation learning中获得模态不变表示。
5.通过平均池化对特征进行降维并输入到全连接层中得到最终的分类结果。
第1,2步是很简单的操作,此处不进一步进行描述了。
InterME模块
该模块简单来说就是将三种模态的特征,两两之间进行融合,每个模态得到两个不同的融合特征,最后通过去平均来获得该模态最终的融合特征。
GIMA模块如图(b)所示。模型首先接收两种不同模态的特征,并在其上添加上位置编码,随后通过交叉注意力来对两个模态的特征进行融合。作者在交叉注意力的基础上添加了一个门控机制(FBP Gate),作者想要通过该门控机制让模型自适应的决定两个模态之间是否存在很强的关系,同时过滤掉不相关的特征。此处的公式如下所示:
Sign()是产生0或1的符号,Z为经过交叉注意力融合后的特征。
从图(b)中可以看出,作者在门控之后使用了残差连接,我猜测作者添加该残差连接是为了防止原始模态特征的损失,毕竟融合特征无用不代表原始特征无用。
Modality-invariant temporal representation learning模块
该模块在我第一次读的时候并不能完全了解,在与作者取得联系后,在作者的耐心解释下我最终明白了作者此处的工作。此处非常感谢该论文的原作者浙江大学的孙浩博士,对我问题的耐心解答。
该模块其实是通过KL散度来对模型进行约束,KL散度是损失函数的一部分,并不直接对模型特征进行处理。而此处的XmIn其实就是Xmenc在经过约束训练后的特征。
实验
作者在YouTube,MOUD,ICT-MMMO和POM4个数据集上做了实验。总的来说模型的效果很好。