本文提出一种考虑时序和上下文的、端到端的多模态情感分析。视频和音频两种模态。比较了各种模型的arousal和valence.
相比较之前手工特征的提取,本文提出直接用raw signal作为输入,
Visual Network,使用已有数据集50层的深度残差网络用提取特征,
Speech Network:
1)Input.考虑到说话者之间不同音量的变化,预处理时间序列为零均值和单位方差,之后把原始波形分段为6s长的序列。 在16千赫采样率,这对应于96000维的输入向量。
2)Temporal Convolution时间卷积. 用F = 20 时空有限脉冲滤波器,窗口大小 5ms,从高采样率信号提取精细尺度光谱信息
3)Pooling across time.跨时间池化 每个滤波器的脉冲响应通一个过半波整流器(类似于人耳中的耳蜗转导步骤),然后下采样到8千赫,通过池化每个脉冲,池化层:a pool size = 2.
4)Temporal Convolution. 时间卷积。我们用M= 40 时空有限脉冲滤波器,窗口大小 500ms,用来提取更长期的语音特征和语音信号的粗糙度
5)Max pooling across channels. 跨通道最大池化。with a pool size of 10. 这减少了信号的维度同时也保存卷积信号的必要统计信息
6)Dropout. 由于参数众多,为了避免过拟合,进行正则化,选择以0.5的概率dropout
目标函数:the concordance correlation coefficient (ρc)
论文要点解析End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别
最新推荐文章于 2023-05-08 15:52:18 发布