多模态情绪识别调研

问题定义

情绪 Emotion

情绪至今没有明确的定义,但是可以简单的理解成[1]

brief brain and body episode that facilitates a response to a significant event

emotion和feeling等的区别如下所示[2]
在这里插入图片描述
在计算机领域,要特别注意sentiment analysis(情感分析)的区别[3]

Sentiment only manifests itself when the holder of sentiment is facing a situation in which the entity or object is involved or evoked.

简单来说就是sentiment必须要有一个客体,比如

This movie is horrible.

而emotion更多的是主观的感受。同时sentiment是一个比较持续的过程,而emotion就更考虑变化。事实上,在面部表情识别中,就有论文[4]利用光流信息提升识别的准确率。我觉得这一点也是可以探索的方向。

多模态 Multi-modal

模态是指人接受信息的特定方式,多模态学习就是不同的信息模态例如语音(包括语义和非语义信息等)、视频(包括RGB信息、深度信息、光流信息等)、文本信息进行自动化系统的学习。

与多模态学习联系紧密的跨模态(cross-modal)学习是利用其他模态的信息增强某一个模态信息的学习效果,比如利用视频信息增强对音频数据的训练效果,但是测试时只利用音频数据测试[5]
在这里插入图片描述
在情绪识别的问题中,音频的语义(linguistic)信息是相对不可靠的。一是在指定情绪下,人的词语选择是不确定的;二是语义信息是和语言的种类相关的,情绪却是与语言种类无关的,用语义信息得到的模型是很难泛化的[6];三是考虑到最后的应用场景(问答式),词语的种类很有限。因此我觉得最后的多模态信息应该排除语音信息,只考虑非语义信息

融合算法

多模态学习的融合算法一般可以分为数据融合(data fusion)、特征融合(feature fusion)和决策融合(decision fusion)三个层面[7]
在这里插入图片描述
在大数据时代,多模态的数据往往大容量、大速率,且数据形式多样,有结构化、半结构化等等数据,这些数据位于不同的空间中。直接进行融合不仅存在技术上的困难,而且会带来维度灾难和模型收敛的问题。

而对于决策融合,一方面由于人们在表述情感信息的时候是冗余的,决策融合往往会带来分类的错误;另一方面,音频信息和图像信息的独立性假设损失了模态间的互信息。

因此我认为融合算法重点应该放在中间层的特征融合。

决策融合

决策融合有常用的SVM、MLP等等方法。也可以采用概率图的方法进行推断,概率图还可以减轻错误分类结果带来的影响[8]
在这里插入图片描述

特征融合

多模态HMM

多支可以简单的理解成单支HMM,但是有两个观测变量分别作用于音频和视频[9]

受限/深度玻尔兹曼机(Restricted/Deep Boltzmann Machine)

玻尔兹曼机是一大类的神经网络模型,但是在实际应用中使用最多的则是RBM。RBM本身模型很简单,只是一个两层的神经网络,因此严格意义上不能算深度学习的范畴。不过深度玻尔兹曼机(Deep Boltzmann Machine,以下简称DBM)可以看做是RBM的推广。上面一层神经元组成隐藏层(hidden layer), 用ℎ向量隐藏层神经元的值。下面一层的神经元组成可见层(visible layer),用𝑣向量表示可见层神经元的值。隐藏层和可见层之间是全连接的,这点和DNN类似, 隐藏层神经元之间是独立的,可见层神经元之间也是独立的。连接权重可以用矩阵𝑊表示。**和DNN的区别是,RBM不区分前向和反向,可见层的状态可以作用于隐藏层,而隐藏层的状态也可以作用于可见层。**隐藏层的偏倚系数是向量𝑏b,而可见层的偏倚系数是向量𝑎。

img
利用RBM先提取音频和视频的特征,再利用中间特征进一步训练分类器[5][10]

通过AE来训练中间特征提取器

因为是概率模型,因此此方法可以很好的解决某个模态的输入有缺失的情况。

不同设计的网络结构

Dense Multimodal Fusion

将不同模态的中间层特征融合,利用反向传播训练参数[7]
在这里插入图片描述

Multimodal Transfer Module

参考Squeeze-and-Excitation网络模块的思想,将不同模态提取出来的中间特征进行融合作为新的特征[11]
在这里插入图片描述
同时比较有意思的是论文对音频信号的处理方式,是将音频的梅尔频谱作为图像输入网络,然后利用Resnet处理
在这里插入图片描述
不过它的缺点是只能融合CNN提取出来的特征。

GATED MULTIMODAL UNITS

参考LSTM单元中的遗忘门和重置门的设置,设计出门单元来融合多模态信息[12]

在这里插入图片描述

EmotiCon

利用不同的backbone提取出不同模态的特征,之后进行concatenate得到新特征,再对新特征进行处理[13]
在这里插入图片描述

Late Fusion of Multimodal Information

利用I3D作为backbone提取视频的特征,利用CNN提取音频的梅尔频谱特征,之后将concatenate的特征进行分类[14]
在这里插入图片描述

Cross-Modal Self-Attention Network

利用自注意力机制融合不同模态之间的信息,然后利用门控模块融合不同层级之间的特征[15]
在这里插入图片描述

Tensor Fusion Network

利用LSTM等网络提取不同的单模态的特征,将单模态特征组合形成新的特征空间,再在新的特征空间上进行特征提取的操作[16]
在这里插入图片描述

Spatiotemporal Semantic Alignment

利用模态 n n n的信息来增强对模态 m m m的学习,同时利用一个focal regularization parameter ρ \rho ρ 来控制信息的流向,以免对学习造成负面影响[17]
在这里插入图片描述

EmotionNet with Web Data

爬去网络上的图片数据和响应的描述tags,利用额外的标签增强网络的训练[18]
在这里插入图片描述

Transformer

Transformer是最近大火的技术,它是利用自注意力机制提取长距离的信息[19]。Transformer的基本模块是self-attention模块,假设模块的输入为 X \mathbf{X} X,query为 Q = X W Q \mathbf{Q=XW}^Q Q=XWQ,key为 K = X W K \mathbf{K=XW}^K K=XWK,value为 V = X W V \mathbf{V=XW}^V V=XWV,self-attention模块的输出为
Z = s o f t m a x ( Q K T d q ) V \mathbf{Z}=\mathbf{softmax}(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{d_q}})\mathbf{V} Z=softmax(dq QKT)V
将self-attention模块重复堆叠,就是Transformer的结构:
在这里插入图片描述
Transformer具有很强的模型容量和泛化能力,并且在不改变模型结构的前提下,就能直接从nlp迁移到cv。例如,ViT就是将图像块直接输入到nlp的transformer模型中,得到的模型就能得到很好的进行图像分类[20]

在这里插入图片描述
对于多模态的Transformer,将不同的模态的信息一次输入其中即可[21]
在这里插入图片描述
多模态Transformer将会是很有潜力的方向,不过Transform需要首先进行预训练,对算力的大量需求将是瓶颈。或许可以考虑高效Transformer的结构。

参考

  • 6
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值