采用RAVDESS数据集
提取MFCC特征,并对每段语音添加高斯白噪声
数据扩充为3倍,最终总数据为4320段语音.
网络模型采用两段并行CNN+Transformer编码器进行特征提取,最终提取特征为1064
损失采用交叉熵损失函数
优化器采用SGD(随机梯度下降)
2020-10-27-------------------------------------------------------------------------------------------------------
在Pycharm下训练:大约在第50个epoch时,训练集损失继续下降,准确率达到97%波动上升趋势不变,但验证集损失开始波动上升,准确率波动停在65%
根据此处所描述,说明网络在训练集上出现了过拟合。
奇怪的是,在测试集上准确率波动在了72%。
准备在此模型的基础上更换特征,采用Mel谱特征进行尝试。
2020-10-28------------------------------------------------------------------------------------------------------
出大问题,我这破笔记本的1060显卡显存不够,更换Mels谱特征后,特征大小为128*563,在经过第2个epoc后,应该是在反向传播的参数更新部分发生报错,具体错误为:CUDA out of memory. Tried to allocate 1.84 GiB (GPU 0; 6.00 GiB total capacity; 1.97 GiB already allocated; 898.82 MiB free; 3.71 GiB reserved in total by PyTorch)
。
网上都说是缩小batch可以解决,不过我试了试好像不行,下一步打算缩小所提取的Mel谱图特征大小。
训练语音情感识别模型结果记录
最新推荐文章于 2023-04-24 21:15:08 发布