A Transformer-based joint-encoding for Emotion Recognition and Sentiment Analysis

本文提出了一种基于Transformer的联合编码(TBJE)方法,用于多模态情感识别和情感分析。TBJE结合了单模态和多模态Transformer编码,利用模块化共同注意力和glimpse层来处理音频、视频和文本数据。实验在CMU-MOSEI数据集上进行,与现有技术相比,表现出优越性能。
摘要由CSDN通过智能技术生成

A Transformer-based joint-encoding for Emotion Recognition and Sentiment Analysis

摘要

理解表达的情绪和情感是人类多模态语言的两个重要因素。本文提出了一种基于Transformer的联合编码(TBJE)用于情绪识别和情感分析。 除了使用Transformer架构之外,我们的方法还依赖于模块化的共同注意力和glimpse层来共同编码一个或多个模态。 提出的解决方案也已提交给ACL20:第二次多模态语言大挑战,将在CMU-MOSEI数据集上进行评估。 复制所提出的实验的代码是开源的。https://github.com/jbdel/MOSEI_UMONS

1.简介

利用多模态预测情感状态是一项具有挑战性的任务。情绪识别任务已经在处理不同类型的信号,通常是音频,视频和文本。 深度学习技术允许开发新颖的范例,以在一个模型中使用这些不同来源的信号来提取联合信息。 本文旨在提出一种基于机器翻译(Transformers,Vaswani等人(2017))和视觉问答(模块化共同关注,Yu等人(2019))的思想的解决方案。 我们的贡献不仅在计算上非常有效,而且还是情感分析和情绪识别的可行的解决方案。 我们的结果可以与CMU-MOSEI数据集上的两个任务的当前最新技术进行比较,甚至有时超过(Zadeh等人,2018b)。
本文结构如下:首先,在第二部分 ,我们快速查看了在MOSEI数据集上评估过的相关工作,然后在第3节中继续描述我们的模型,然后,我们将在第4节中说明如何从原始视频中提取模态特征,最后在第5和6节中介绍用于实验的数据集及其各自的结果。

2.相关工作

多年来,研究团体在情感分析和情绪识别领域提出了许多创造性的解决方案。 在本节中,我们将描述已在CMU-MOSEI数据集上评估的不同模型。 据我们所知,这些想法都没有使用基于Tansformer的解决方案。
Memory Fusion Network记忆融合网络(MFN,Zadeh等人(2018a))通过时间存储视图和交叉视图交互的多视图门控存储器来同步多模态序列。
Graph-MFN(Zadeh 等人,2018b)由建立在MFN上的动态融合图(DFG)组成。 DFG是一种融合技术,可解决多模态语言中跨模态动力学的本质。融合是一种学习建立多模态交互的模型,并在推理过程中根据每个模态动态的重要性动态改变其结构以选择合适的融合图网络。
Sahay等人(2018)使用Tensor Fusion Network张量融合网络(TFN),即模态的外积,可以对整个序列或一帧一帧地执行此操作。 第一种方法在添加模态时导致特征空间的指数增长,这在计算上是昂贵的。因此第二种方法是首选的,他们比早期融合基线有了改善。
最近,Shenoy和Sardana(2020)提出了一种基于上下文感知的RNN,Multilotongue- net的解决方案,用于对话中的多模态情绪检测和情感分析。

3.模型

本节旨在描述实验中评估的两种模型变体:单模态变体和多模态变体。单模态变体用于仅根据L(语言学)、V(视觉)或A(声学)对情绪和情感进行分类。多模态版本用于任何模态的组合。
我们的模型基于Transformer模型(Vaswani等人, 2017),这是一种新的编码架构,完全避免了序列编码的递归,而是完全依赖注意力机制和前馈神经网络(FFN)来绘制输入和输出之间的全局依赖关系。与根据先前隐藏状态ht-1和位置t的输入而生成一系列隐藏状态ht的递归神经网络(RNN)相比,该Transformer可以实现更多的并行化

3.1 单模态Transformer的编码

单模态编码器由一堆相同的块组成,但是具有自己的一组训练参数。**每个块都有两个子层。 在两个子层的每个周围都有一个残余连接,然后进行层归一化(Ba等人,2016)。**每个子层的输出可以这样写:

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Visual segmentation is one of the most important tasks in computer vision, which involves dividing an image into multiple segments, each of which corresponds to a different object or region of interest in the image. In recent years, transformer-based methods have emerged as a promising approach for visual segmentation, leveraging the self-attention mechanism to capture long-range dependencies in the image. This survey paper provides a comprehensive overview of transformer-based visual segmentation methods, covering their underlying principles, architecture, training strategies, and applications. The paper starts by introducing the basic concepts of visual segmentation and transformer-based models, followed by a discussion of the key challenges and opportunities in applying transformers to visual segmentation. The paper then reviews the state-of-the-art transformer-based segmentation methods, including both fully transformer-based approaches and hybrid approaches that combine transformers with other techniques such as convolutional neural networks (CNNs). For each method, the paper provides a detailed description of its architecture and training strategy, as well as its performance on benchmark datasets. Finally, the paper concludes with a discussion of the future directions of transformer-based visual segmentation, including potential improvements in model design, training methods, and applications. Overall, this survey paper provides a valuable resource for researchers and practitioners interested in the field of transformer-based visual segmentation.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值