6Attentive Convolutional Neural Network based Speech Emotion Recognition: A Study on the Impact of


前言

原文地址——2017


一、文章内容

  • 这个文章使用了注意力卷积网络)(ACNN)和多视图学习的方法,还研究了输入不通长度的音频信息( how long does the system
    need to wait to make an accurate prediction?)和不同的语音特征的情况下的实验结果,此外:Moreover, we analyze extensively performance differences between improvisedand scripted speech(IEMOCAP数据集分为即兴的和排练的两种类型

  • 文章使用的模型如下:

    • 使用音频数据的D维特征作为原始的数据((a) 26 logMel filter-banks,(b) 13 MFCCs, © a prosody feature set, and (d) the extended Geneva minimalistic acoustic parameter set (eGeMAPS)),独立的进行归一化和标准化处理
    • 使用了长度和D相同的卷积内核进行卷积
    • 将获得的结果进行了最大池化后进行注意力提取(最大池化层有利于噪声的过滤)
    • 注意力公式如下
    • A t t e n t i o n ( Q , K , V ) = s o f t m a x k ( Q K T d k ) V \Large{Attention(Q, K, V) = softmax_k(\frac{QK^T}{\sqrt{d_k}}) V} Attention(Q,K,V)=softmaxk(dk QKT)V
    • 将注意力提取后的特征输入到Softmax层
    • 再进一步进行分类,做了一个Multi-view学习
      在这里插入图片描述
  • 实验结果:
    在这里插入图片描述
    在这里插入图片描述

  • 实验结论:

    • 实验结果认为韵律特征并不能很好的表达出感情状态来,使用频谱特征就可以
    • 文章实验结果认为:识别性能在很大程度上依赖于语音数据的类型,而不依赖于输入特征的选择
    • 实验发现即兴的数据和排练数据在感情表达的位置上是十分不同的
  • 实验发现短时的音频信息也可以获取较好的识别效果

二、文章总结

  • 文章使用了注意力CNN进行特征提取,而且使用了多视角学习的方式来提高训练的精度,做了大量实验在特征选取方面和音频长度选取方面,各种实验细节描述很详细,具体看文章。
  • 文章主要在如下几个方面进行了尝试:
    • 初始特征的选择:谱特征,韵律特征
    • 数据的长度选择上:234567s的长度都试了一遍,越长效果越好
    • 数据类型的选择上:即兴演说的数据和排练的数据
    • 模型的选择:ACNN,卷积核是二维的大跨度的
    • 训练方式的选择:多视角训练
  • 模型问题:
    • 模型方面没考虑使用RNN模型,让提取的特征融合更多的上下文信息
    • 内核过大,特征提取不是很细致。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不被定义的号

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值