论文中文解读 End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别

最新推荐文章于 2023-02-28 14:22:15 发布

mengmeng0109

最新推荐文章于 2023-02-28 14:22:15 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/mengmeng19870109/article/details/112494944

版权

论文解读 End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别

英文文献https://www.researchgate.net/publication/316538984
摘要：我们提出了一种使用听觉和视觉的情绪识别系统。利用卷积神经网络（CNN）从语音中提取特征，视觉模态使用50层的深度残差网络（ResNet）。另外，机器学习算法要对异常值不敏感，同时能够对上下文进行建模。所以，本文利用了长短期记忆（LSTM）网络，通过利用每个流的相关性，以端到端的方式进行训练。
I.介绍
情感分析很重要，在很多领域广泛应用（文献1、2）
大量研究显示出这些网络变体在建模语音信号固有结构时的有利属性，最近的研究尝试尽可能少的使用人类先验知识进行端到端优化。然而，这些工作大多数使用手工特征作为输入特征，比如MFCC、感知线性预测系数、超段特性，这些是建立在几十年听觉研究中获得的知识之上的。
近期，出现一种趋势：直接从原始的、未处理的数据导出输入信号的表示。这种趋势的出现是因为网络自动学习的原始输入信号的中间表示，更好地适合手头的任务，从而提高性能。
本文中研究自动情感感应。音频频道用CNN架构获取语音信号特征，用ResNet-50 获取视觉信息。这两种网络的输出融合在一起，然后fed to 一个lstm。采用端到端的方式训练，使用一致性相关系数（ρc）的显式最大化，这比用均方误差目标优化表现好。通过进一步研究循环层不同细胞的激活，发现存在可解释细胞，与韵律和声学特征高度相关，试图传达情感信息。
II. 相关工作
近来，一系列新的神经网络，比如：autoencoder netwarks，CNNs, DBNs、LSTM。
Ngiam et al. [15]提出 a Multimodal Deep Autoencoder (MDAE) network 从视频音频中提取特征，首先，是一个bimodal DBN训练初始化深的自动编码器，然后MDAE微调，以尽量减少两种模态的重建误差。
Hu et al. [16] 提出一种时序多模态网络叫做 Recurrent Temporal Multimodal Restricted Boltzmann Machine (RTMRBM) 来模拟视听数据序列。
DNNs用来手势识别。在[17]作者使用骨骼信息和RGB-D图像识别手势。更特别的是，他们使用DBNs要处理骨架特征和RGB-D数据使用3DCNN,通过在顶部堆叠一个隐马尔可夫模型（HMM）来考虑时间信息。
Han et al. [18] 使用手工特征 to feed a DNN .
Lim et al [19] 在使用短时傅立叶变换对数据进行变换之后，使用 CNNs来提取高级特征。使用LSTM获取时序结构
Trigeorgis et al.[10] 提出了一种端到端的模型，使用CNN从原始信号中提取特征，然后使用一个LSTM网络获取数据中的上下文信息。
用DNN通过脸部信息进行情绪分析。比如Huang et al. [20] 提出了通过结合DNN和超图的基于图像的情感识别的一个直观的学习框架。在DNN训练情感分类任务，在最后一个完全连接层的每个节点被视为一个属性，用来在超图中形成超边。Ebrahimi et al. [21] 合并了CNNs和RNNs来识别视频中的情绪。首先训练CNN来识别静态图像中的情感。然后，从CNN中提取到的特征用来训练RNN来产生整个视频中的情绪。
近来合并视听模式取得进展。Kim et al. [23] 提出了四个不同DBN 架构，其中一个是基本的2层DBN,其余的变异体，基本的架构首先分别学习音频和视频特征。之后，连接两个模态中的这些特征来学习第二层。使用一个 Support Vector Machine (SVM)来评估这些特征。
Kahou et al. [24]提出结合具体模态DNNs来识别视频中的情感。一个CNN被用来分析视频帧，一个DBN捕捉音频信息，一个深度的自动编码器来模拟整个场景中描绘的人类行为，最后是CNN网络从人类嘴型提取特征。他们使用两种方法输出最后的预测。第一种方法，取每种模态预测的平均值，第二种方法用级联特征

最低0.47元/天解锁文章

mengmeng0109

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
论文中文解读 End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别

论文解读 End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别摘要：我们提出了一种使用听觉和视觉方式的情绪识别系统。我们利用卷积神经网络（CNN）从语音中提取特征，而对于视觉模态，则使用50层的深度残差网络（ResNet）。其中特征提取要鲁棒，机器学习算法要对异常值不敏感，同时能够对上下文进行建模。利用了长期短期记忆（LSTM）网络。通过利用每个流的相关性，以端到端的方式对系统进行训
复制链接

扫一扫

论文中文解读 End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别

论文解读 End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别

“相关推荐”对你有帮助么？