1.摘要
本文主要探讨多模态情感分析的三个方面。
(1)跨模态交互学习,即多种模态如何影响情绪;
(2)学习多模态交互中的长期依存关系;
(3)单模态和跨模态线索的融合。
对两个基准数据集进行了实验,CMU多模态观点水平情感强度(CMU-MOSI)和CMU多模态观点情感和情绪强度(CMU-MOSEI)语料库,分别产生83.9%和81.1%的准确度,与当前的最新技术相比,绝对准确度提高了1.6%和1.34%。
2.导论
已经提出了几种用于多模态情绪分析的方法尝试有效利用多模式信息。这些分为三类:独立学习模态并融合模态特定表示的输出的方法;共同学习两个或三个模态的交互的方法;从中明确学习贡献的方法这些单峰和跨峰线索,通常使用基于注意力的技术。
大多数现有方法建议以不同的粒度进行融合,或使用交叉交互模块将不同模态的特征耦合在一起。
为了学习更好的交叉模态信息,我们引入了新颖的条件门控机制来在交互过程中调制信息。这种门控机制根据语言信息,说话者的语气和话语的面部表情有选择地学习不同模态的相对重要性
捕获跨领域的长期依赖视频中的话语,我们在单峰上下文表示上应用了一个自我注意层。
最后,将自注意的单峰上下文表示和门控交叉交互表示馈入循环层,以获得每种话语的深层多峰上下文特征向量。
3. 提出的方法
我们提议的方法的主要贡献是:
(1)可学习的门控机制,可在