基于深度学习的语音情绪识别 Speech emotion recognition based on Deep Learning

前言

本博客将详细介绍基于深度学习的语音情感识别的流程及方法,之后讲针对该方法做一篇基于Pytorch的语音情感识别的实现方式。

数据集

数据集的选择

限于篇幅,具体数据集内容不再详细介绍。
推荐的语音情绪识别的数据集:

  1. Emodb:来自德国的语音数据集,包含7种情绪。
  2. SAVEE:The Surrey Audio-Visual Expressed Emotion。来自英国的语言数据集,包含7种情绪。
  3. EMOVO:来自意大利的语音数据集,包含7种情绪。
  4. BTNRH:来自美国的语音数据集,包含5种情绪。
    具体的数据集下载及来源在此不再列出,如有需要,可留言。

数据集的预处理

数据处理步骤:
1.利用FIR滤波器对其进行滤波,使得频率为 16 kHZ
2.把所有的音频数据要转化为频谱图。(用纵轴来表示频率,横轴表示时间,energy or intensity 可以由图片的黑暗程度或颜色来编码)
且宽带语谱图的时域分辨率高、可以看见语谱图上的纵的线条;窄带语谱图的频域分辨率高、语谱图上横的线条明显。我们采用宽带语谱图。(原因还不是很懂,先这样用)
为了实现转化,我们需要将Hamming windows 设置长度5 ms with 4.4 ms overlap,DFT points=512
3.另外,我们将频谱图中大于4 kHZ的部分也丢掉了,因为在正常交流中,4000 Hz以内的频率已经足够我们进行对情绪的分类。而且还可以提升我们算法的性能。

训练和测试集

训练和测试集的选取步骤:
1.将数据进行5倍交叉验证,分成五部分。
2.数据集的第一部分被用作测试集,其它部分被用作训练集。及按照8/2比例进行训练集和测试集的分类。
3.之后,数据集的第二部分被用作测试集,其它部分被用作训练集。依次循环。
4.为了防止过拟合与数据库过小的不利影响,我们的对数据进行了增强通过添加具有+15(SNR)信噪比的white Gaussian noise(高斯白噪声)到每个音频文件中 either 10 times or 20 times.
5.在训练时我们使用了增强后的数据,而在进行测试时我们仍使用原数据。
6.最终,我们的数据被编码成One-hot vectors One hot vectors讲解
7.训练epochs 在100-4000之间

模型

Modle讲解

未完待续……

  • 5
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
深度学习语音情感识别是一种利用深度学习算法来识别语音中的情感信息的技术。它可以通过对语音信号进行特征提取和模型训练,来自动识别出语音中所表达的情感状态。根据引用\[2\]的研究,通过利用面向LSTM-CTC时序深度学习语音情感识别模型和联结主义时间分类(CTC)方法自动对齐能力,可以将情感标签对齐到语音中的情感帧上。这种方法可以识别出多种情感特征,如高兴、悲伤、中性、生气、惊奇、害怕和恐惧。研究结果表明,与传统的语音情感识别方法相比,深度学习语音情感识别可以提高1.8%至2.3%的精度。 在深度学习语音情感识别中,数据集的选择和预处理也是非常重要的。根据引用\[3\]的推荐,一些常用的语音情绪识别数据集包括Emodb、SAVEE、EMOVO和BTNRH等。这些数据集包含了不同情绪的语音样本,可以用于训练和评估深度学习模型的性能。 此外,深度学习语音情感识别还可以采用一些优化方法来提高识别精度和系统的稳定性。例如,引用\[2\]中提到的群体决策优化神经网络方法,可以通过选取在测试集上识别效果最好的模型组成一个神经网络群,然后使用投票的方式给出最终的识别结果。这种方法可以提高识别精度和系统的稳定性。 总的来说,深度学习语音情感识别是一种利用深度学习算法来自动识别语音中情感信息的技术。通过选择合适的数据集、进行数据预处理和采用优化方法,可以提高识别精度和系统的稳定性。 #### 引用[.reference_title] - *1* [基于深度学习语音情绪识别 Speech emotion recognition based on Deep Learning(二)](https://blog.csdn.net/qq_44554428/article/details/104587893)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [检信ALLEMOTION语音情感识别关键技术介绍](https://blog.csdn.net/weixin_42466538/article/details/123438571)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [基于深度学习语音情绪识别 Speech emotion recognition based on Deep Learning](https://blog.csdn.net/qq_44554428/article/details/104236591)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值