论文要点解析End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别

最新推荐文章于 2023-05-08 15:52:18 发布

mengmeng0109

最新推荐文章于 2023-05-08 15:52:18 发布

阅读量1.1k

点赞数 1

本文链接：https://blog.csdn.net/mengmeng19870109/article/details/112631939

版权

本文提出一种考虑时序和上下文的、端到端的多模态情感分析。视频和音频两种模态。比较了各种模型的arousal和valence.
相比较之前手工特征的提取，本文提出直接用raw signal作为输入，
Visual Network，使用已有数据集50层的深度残差网络用提取特征，
Speech Network：
1）Input.考虑到说话者之间不同音量的变化，预处理时间序列为零均值和单位方差，之后把原始波形分段为6s长的序列。在16千赫采样率，这对应于96000维的输入向量。
2）Temporal Convolution时间卷积. 用F = 20 时空有限脉冲滤波器，窗口大小 5ms，从高采样率信号提取精细尺度光谱信息
3）Pooling across time.跨时间池化每个滤波器的脉冲响应通一个过半波整流器（类似于人耳中的耳蜗转导步骤），然后下采样到8千赫，通过池化每个脉冲，池化层：a pool size = 2.
4）Temporal Convolution. 时间卷积。我们用M= 40 时空有限脉冲滤波器，窗口大小 500ms，用来提取更长期的语音特征和语音信号的粗糙度
5）Max pooling across channels. 跨通道最大池化。with a pool size of 10. 这减少了信号的维度同时也保存卷积信号的必要统计信息
6）Dropout. 由于参数众多，为了避免过拟合，进行正则化，选择以0.5的概率dropout
目标函数：the concordance correlation coefficient (ρc)

最低0.47元/天解锁文章

mengmeng0109

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文要点解析End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别

本文提出一种考虑时序和上下文的、端到端的多模态情感分析。视频和音频两种模态。比较了各种模型的arousal和valence.相比较之前手工特征的提取，本文提出直接用raw signal作为输入，Visual Network，使用已有数据集50层的深度残差网络用提取特征，Speech Network：1）Input.考虑到说话者之间不同音量的变化，预处理时间序列为零均值和单位方差，之后把原始波形分段为6s长的序列。在16千赫采样率，这对应于96000维的输入向量。2）Temporal Convol
复制链接

扫一扫

论文要点解析End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别

“相关推荐”对你有帮助么？