LMR-CBT: Learning Modality-fused Representations with CB-Transformer for Multimodal Emotion Recognition from Unaligned Multimodal Sequences
基本介绍:FCS, 2024, CCF-B
原文链接:https://arxiv.org/pdf/2112.01697
Abstract
在多模态情感识别中,学习融合模态的表示以及处理未对齐的多模态序列是具有重要意义且充满挑战的任务。现有方法使用方向性成对注意力机制或消息枢纽来融合语言、视觉和音频模态。然而,这些方法在融合特征时引入了信息冗余,并且没有充分考虑模态之间的互补性,导致效率低下。本文提出了一种高效的神经网络,使用CB-Transformer(LMR-CBT)从未对齐的多模态序列中学习融合模态的表示,用于多模态情感识别。具体而言,我们首先对三种模态分别进行特征提取,以获得序列的局部结构。然后,我们设计了一种新的带有跨模态块(CB-Transformer)的Transf