论文要点解析End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别

本文提出一种考虑时序和上下文的、端到端的多模态情感分析。视频和音频两种模态。比较了各种模型的arousal和valence.
相比较之前手工特征的提取,本文提出直接用raw signal作为输入,
Visual Network,使用已有数据集50层的深度残差网络用提取特征,
Speech Network:
1)Input.考虑到说话者之间不同音量的变化,预处理时间序列为零均值和单位方差,之后把原始波形分段为6s长的序列。 在16千赫采样率,这对应于96000维的输入向量。
2)Temporal Convolution时间卷积. 用F = 20 时空有限脉冲滤波器,窗口大小 5ms,从高采样率信号提取精细尺度光谱信息
3)Pooling across time.跨时间池化 每个滤波器的脉冲响应通一个过半波整流器(类似于人耳中的耳蜗转导步骤),然后下采样到8千赫,通过池化每个脉冲,池化层:a pool size = 2.
4)Temporal Convolution. 时间卷积。我们用M= 40 时空有限脉冲滤波器,窗口大小 500ms,用来提取更长期的语音特征和语音信号的粗糙度
5)Max pooling across channels. 跨通道最大池化。with a pool size of 10. 这减少了信号的维度同时也保存卷积信号的必要统计信息
6)Dropout. 由于参数众多,为了避免过拟合,进行正则化,选择以0.5的概率dropout
目标函数:the concordance correlation coefficient (ρc)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值