最近在训练conformer+RNN的ASR,我把batch size设置成1,使用Adam优化器,使用的是transformer lr 学习率器,warm up step设置成10000,K设置成2。
只使用了train-clean-100 6G大小的数据集中的1G,验证集全部使用dev-clean。训练了150个epoch,输出的文本只有’AND‘一个单词,WER不下降。
尝试做过的改变:
1.增大batch size,增大到8并没有变好。由于显存有限,batch等于16的时候就会OOM。
2.增加epoch,训练到了300个epoch,loss也几乎不下降。
3.只使用1个音频文件,loss会趋近0,WER为7左右。(只有训练,并没有进行验证和测试)