A Transformer-based joint-encoding for Emotion Recognition and Sentiment Analysis
基于Transformer的情感识别和情感分析联合编码
摘要
理解表达的情绪和情感是人类多模态语言的两个重要因素。本文提出了一种基于Transformer的联合编码(TBJE)用于情绪识别和情感分析。 除了使用Transformer架构之外,我们的方法还依赖于模块化的共同注意力和glimpse层来共同编码一个或多个模态。 提出的解决方案也已提交给ACL20:第二次多模态语言大挑战,将在CMU-MOSEI数据集上进行评估。 复制所提出的实验的代码是开源的。https://github.com/jbdel/MOSEI_UMONS
1.简介
利用多模态预测情感状态是一项具有挑战性的任务。情绪识别任务已经在处理不同类型的信号,通常是音频,视频和文本。 深度学习技术允许开发新颖的范例,以在一个模型中使用这些不同来源的信号来提取联合信息。 本文旨在提出一种基于机器翻译(Transformers,Vaswani等人(2017))和视觉问答(模块化共同关注,Yu等人(2019))的思想的解决方案。 我们的贡献不仅在计算上非常有效,而且还是情感分析和情绪识别的可行的解决方案。 我们的结果可以与CMU-MOSEI数据集上的两个任务的当前最新技术进行比较,甚至有时超过(Zadeh等人,2018b)。
本文结构如下:首先,在第二部分 ,我们快速查看了在MOSEI数据集上评估过的相关工作,然后在第3节中继续描述我们的模型,然后,我们将在第4节中说明如何从原始视频中提取模态特征,最后在第5和6节中介绍用于实验的数据集及其各自的结果。
2.相关工作
多年来,研究团体在情感分析和情绪识别领域提出了许多创造性的解决方案。 在本节中,我们将描述已在CMU-MOSEI数据集上评估的不同模型。 据我们所知,这些想法都没有使用基于Tansformer的解决方案。
Memory Fusion Network记忆融合网络(MFN,Zadeh等人(2018a))通过时间存储视图和交叉视图交互的多视图门控存储器来同步多模态序列。
Graph-MFN(Zadeh 等人,2018b)由建立在MFN上的动态融合图(DFG)组成。 DFG是一种融合技术,可解决多模态语言中跨模态动力学的本质。融合是一种学习建立多模态交互的模型,并在推理过程中根据每个模态动态的重要性动态改变其结构以选择合适的融合图网络。
Sahay等人(2018)使用Tensor Fusion Network张量融合网络(TFN),即模态的外积,可以对整个序列或一帧一帧地执行此操作。 第一种方法在添加模态时导致特征空间的指数增长,这在计算上是昂贵的。因此第二种方法是首选的,他们比早期融合基线有了改善。
最近,Shenoy和Sardana(2020)提出了一种基于上下文感知的RNN,Multilotongue- net的解决方案,用于对话中的多模态情绪检测和情感分析。
3.模型
本节旨在描述实验中评估的两种模型变体:单模态变体和多模态变体。单模态变体用于仅根据L(语言学)、V(视觉)或A(声学)对情绪和情感进行分类。多模态版本用于任何模态的组合。
我们的模型基于Transformer模型(Vaswani等人, 2017),这是一种新的编码架构,完全避免了序列编码的递归,而是完全依赖注意力机制和前馈神经网络(FFN)来绘制输入和输出之间的全局依赖关系。与根据先前隐藏状态ht-1和位置t的输入而生成一系列隐藏状态ht的递归神经网络(RNN)相比,该Transformer可以实现更多的并行化。
3.1 单模态Transformer的编码
单模态编码器由一堆相同的块组成,但是具有自己的一组训练参数。**每个块都有两个子层。 在两个子层的每个周围都有一个残余连接,然后进行层归一化(Ba等人,2016)。**每个子层的输出可以这样写: