训练语音情感识别模型结果记录

最新推荐文章于 2024-04-23 23:03:45 发布

MercuryG

最新推荐文章于 2024-04-23 23:03:45 发布

阅读量754

点赞数 1

本文链接：https://blog.csdn.net/MercuryG/article/details/109304608

版权

采用RAVDESS数据集
提取MFCC特征,并对每段语音添加高斯白噪声
数据扩充为3倍,最终总数据为4320段语音.
网络模型采用两段并行CNN+Transformer编码器进行特征提取,最终提取特征为1064
损失采用交叉熵损失函数
优化器采用SGD(随机梯度下降)
2020-10-27-------------------------------------------------------------------------------------------------------
在Pycharm下训练:大约在第50个epoch时,训练集损失继续下降,准确率达到97%波动上升趋势不变,但验证集损失开始波动上升,准确率波动停在65%
根据此处所描述,说明网络在训练集上出现了过拟合。
奇怪的是，在测试集上准确率波动在了72%。
准备在此模型的基础上更换特征，采用Mel谱特征进行尝试。
2020-10-28------------------------------------------------------------------------------------------------------
出大问题，我这破笔记本的1060显卡显存不够，更换Mels谱特征后，特征大小为128*563，在经过第2个epoc后，应该是在反向传播的参数更新部分发生报错，具体错误为：CUDA out of memory. Tried to allocate 1.84 GiB (GPU 0; 6.00 GiB total capacity; 1.97 GiB already allocated; 898.82 MiB free; 3.71 GiB reserved in total by PyTorch)。
网上都说是缩小batch可以解决，不过我试了试好像不行，下一步打算缩小所提取的Mel谱图特征大小。

MercuryG

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
训练语音情感识别模型结果记录

采用RAVDESS数据集提取MFCC特征,并对每段语音添加高斯白噪声数据扩充为3倍,最终总数据为4320段语音.网络模型采用两段并行CNN+Transformer编码器进行特征提取,最终提取特征为1064损失采用交叉熵损失函数优化器采用SGD(随机梯度下降)2020-10-27在Pycharm下训练:大约在第50个epoch时,训练集损失继续下降,准确率达到97%波动上升趋于不变,但验证集损失开始波动上升,准确率波动停在65%根据此处所描述,说明网络在训练集上出现了过拟合。...
复制链接

扫一扫