6Attentive Convolutional Neural Network based Speech Emotion Recognition: A Study on the Impact of

最新推荐文章于 2024-05-26 09:45:40 发布

不被定义的号

最新推荐文章于 2024-05-26 09:45:40 发布

阅读量224

点赞数 1

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_37771209/article/details/115413080

版权

前言

这个文章使用了注意力卷积网络）（ACNN）和多视图学习的方法，还研究了输入不通长度的音频信息（ how long does the system
need to wait to make an accurate prediction?）和不同的语音特征的情况下的实验结果，此外：Moreover, we analyze extensively performance differences between improvisedand scripted speech（IEMOCAP数据集分为即兴的和排练的两种类型
）
文章使用的模型如下：
- 使用音频数据的D维特征作为原始的数据（(a) 26 logMel filter-banks,(b) 13 MFCCs, © a prosody feature set, and (d) the extended Geneva minimalistic acoustic parameter set (eGeMAPS)），独立的进行归一化和标准化处理
- 使用了长度和D相同的卷积内核进行卷积
- 将获得的结果进行了最大池化后进行注意力提取（最大池化层有利于噪声的过滤）
- 注意力公式如下
- $\Large{Attention(Q, K, V) = softmax_k(\frac{QK^T}{\sqrt{d_k}}) V}$
- 将注意力提取后的特征输入到Softmax层
- 再进一步进行分类，做了一个Multi-view学习
实验结果：
实验结论：
- 实验结果认为韵律特征并不能很好的表达出感情状态来，使用频谱特征就可以
- 文章实验结果认为：识别性能在很大程度上依赖于语音数据的类型，而不依赖于输入特征的选择
- 实验发现即兴的数据和排练数据在感情表达的位置上是十分不同的
实验发现短时的音频信息也可以获取较好的识别效果

文章使用了注意力CNN进行特征提取，而且使用了多视角学习的方式来提高训练的精度，做了大量实验在特征选取方面和音频长度选取方面，各种实验细节描述很详细，具体看文章。
文章主要在如下几个方面进行了尝试：
- 初始特征的选择：谱特征，韵律特征
- 数据的长度选择上：234567s的长度都试了一遍，越长效果越好
- 数据类型的选择上：即兴演说的数据和排练的数据
- 模型的选择：ACNN，卷积核是二维的大跨度的
- 训练方式的选择：多视角训练
模型问题：
- 模型方面没考虑使用RNN模型，让提取的特征融合更多的上下文信息
- 内核过大，特征提取不是很细致。

关注