阅读笔记 M3ER: Multiplicative multimodal emotion recognition using facial, textual, and speech cues-CSDN博客

本文链接：https://blog.csdn.net/qq874455953/article/details/112637454

M3ER: Multiplicative multimodal emotion recognition using facial, textual, and speech cues

模型总体结构

在这里插入图片描述

我们使用三种模态特征，即语音，文本和面部特征。、

流程如下：

提取特征以从原始输入is，if和if（紫色框）中获取fs，ft，ff。
检查特征向量是否有效。我们使用指标函数Ie来处理特征向量（黄色框）。
将这- 些向量传递到M3ER的分类和融合网络中，以预测情绪（橙色框）。
在判断是否有效时，如果遇到有噪声的模态，我们将为该特定模态（蓝框）重新生成代理特征向量**（ps，pt或pf）**

下面会介绍模型的3个重要结构

检查特征向量模块

作者引入了“模态检查”步骤，该步骤可以过滤无效数据。

作者认为：对于有效的数据，其相应的有效模态信号 至少与另一个模态信号相关。我们直接利用这种相关性概念来区分可能对情感分类有效的特征（有效特征）和嘈杂的特征（无效特征）。作者使用典型相关分析（CCA）以计算相关分数

通过射影变换把不同模态的特征映射到同一纬度（100） i j 属于 {face, text, speech}

在这里插入图片描述

计算相关性

在这里插入图片描述

判断是否有效 Ie函数

在这里插入图片描述

生成代理特征向量模块

如果在模态检查步骤中的一个或多个模态被检测为无效的，我们将使用以下方程式为无效模态生成代理特征向量

在这里插入图片描述

其中T 表示一个线性变换

找到 Vj 是的 Vj 和 Ff 距离最短

在这里插入图片描述

解一个线性方程得到 ai

在这里插入图片描述

用得到的 ai 计算Ps

在这里插入图片描述

乘法模态融合

作者收到(Liu et al. 2018) 的损失函数启发；此方法用乘法的和来抑制弱模态，间接加强强模态，其损失函数

在这里插入图片描述

Pj 表示 j模态下的预测值， β 是超参

选定i为主模态， 其它模态的预测值会相乘 最后相加

作者修改了损失函数

在这里插入图片描述

有点像Cross Entropy Loss 的形式

在这里插入图片描述

分类网络结构

用的是memory fusion network (MFN)

Zadeh, A.; Liang, P. P.; Mazumder, N.; Poria, S.; Cambria, E.; and Morency, L.-P. 2018a. Memory fusion net- work for multi-view sequential learning. AAAI

每个输入模态首先通过单隐藏LSTM，每个LSTM的输出维度为32。
LSTM的输出以及初始化为全零128维内存变量将其传递给 attention module （MFN 提出的）
attention module 内部的操作将重复固定的迭代次数t，该迭代次数由输入形式中的最大序列长度确定**（在本例中为t = 20）**。注意模块每次迭代结束时的输出将用于更新memory变量以及LSTM的输入。
t迭代结束后，使用**乘法融合q前面提到的）**将3个LSTM的输出合并到32维特征向量。该特征向量与memory变量的最终值连接在一起，然后将所得的160维特征向量通过64维全连接层，然后传递给6维全连接层，以生成网络输出