(三十九):MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis
-
出处: ACM Multimedia 2020: 1122-1131
-
主要内容:将多模态的表征分为特定模态的表征和模态不变的表征,最后通过attention融合去做情感分析。MISA 模型可分为三个模块: 特征提取模块(Feature Extraction),模态表征模块(Modality Representations),模态融合模块(Modality Fusion)。特征提取模块:对文本使用预训练BERT提取特征,对图像和音频信号使用 Stack LSTM 学习上下文信息并获得对应模态的特征。模态表征模块:使用 Similarity Loss(CMD) 去约束三个模态达到同一个子空间并去学习三个模态共同的表征;使用 Difference Loss(正交度量)去学习每个模态特有的表征;使用 Reconstruction Loss 去重构模态的原始信息以确保模态在转换空间时丢失信息。模态融合模块:使用 transformer encoder 对模态的特征进行融合并拿此特征向量做最后的预测任务。
-
实验代码:https://github.com/declare-lab/MISA