训练语音情感识别模型结果记录

采用RAVDESS数据集
提取MFCC特征,并对每段语音添加高斯白噪声
数据扩充为3倍,最终总数据为4320段语音.
网络模型采用两段并行CNN+Transformer编码器进行特征提取,最终提取特征为1064
损失采用交叉熵损失函数
优化器采用SGD(随机梯度下降)
2020-10-27-------------------------------------------------------------------------------------------------------
在Pycharm下训练:大约在第50个epoch时,训练集损失继续下降,准确率达到97%波动上升趋势不变,但验证集损失开始波动上升,准确率波动停在65%
根据此处所描述,说明网络在训练集上出现了过拟合
奇怪的是,在测试集上准确率波动在了72%。
准备在此模型的基础上更换特征,采用Mel谱特征进行尝试。
2020-10-28------------------------------------------------------------------------------------------------------
出大问题,我这破笔记本的1060显卡显存不够,更换Mels谱特征后,特征大小为128*563,在经过第2个epoc后,应该是在反向传播的参数更新部分发生报错,具体错误为:CUDA out of memory. Tried to allocate 1.84 GiB (GPU 0; 6.00 GiB total capacity; 1.97 GiB already allocated; 898.82 MiB free; 3.71 GiB reserved in total by PyTorch)
网上都说是缩小batch可以解决,不过我试了试好像不行,下一步打算缩小所提取的Mel谱图特征大小。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值