(二十九):Image-text Multimodal Emotion Classification via Multi-view Attentional Network
- 出处:IEEE 2020
- 标题:基于多视角注意网络的图文多模态情感分类
Abstract
与单模态内容相比,多模态数据更能生动有趣地表达用户的感受和情感。因此,多模态情感分析成为一个热门的研究课题。
然而,现有的方法要么是:独立学习情感模态特征,而没有考虑它们之间的相关性,要么是:简单地整合多模态特征。
此外,大多数公开的多模态数据集是通过情感极性来标记的,而用户表达的情感是特定的。
基于这一观察结果,在本文中,我们构建了一个名为TumEmo的大规模图像-文本情感数据集(即,用不同的情绪标记),该数据集包含Tumblr(Tumblr是一个由大卫·卡普在2007年创立的微博和社交网站,目前归Automattic所有。该服务允许用户发布多媒体内容和其他内容到简短的博客。用户可以关注其他用户的博客。)的超过19万个实例。进一步提出了一种基于多视图注意网络(MVAN)的多模态情感分析模型,该模型利用不断更新的记忆网络来获取图像-文本的深度语义特征。
该模型包括特征映射、交互学习和特征融合三个阶段:
· 在特征映射阶段,我们利用物体视角和场景