该项目是基于CNN+CTC网络实现,中文标注是拼音,解码使用HMM,项目地址:https://github.com/nl8590687/ASRT_SpeechRecognition
该项目很不错,但是本人用原版项目代码进行训练测试无法达到较好的效果,然后对其做了一些改动,时间有限最终拼音ER在11%左右,词错误率WER 在33%左右,数据集使用aishell,thchs30,ST-CMDS
原版项目解释可以参考github上的说明,比较详细,下面说下优化部分:
模型架构使用VGG(微调结构适配频谱图)+CTC
原始VGG网络:
其中微调版VGG结构:
Conv3-32 |
BatchNormalization |
Conv3-32 |
BatchNormalization |
maxpool |
|