pytorch-kaldi是开发最先进的DNN/RNN混合语音识别系统的公共存储库。DNN部分由pytorch管理,而特征提取,标签计算和解码使用kaldi工具包执行。前面我们已经介绍了Linux/Windos搭建安装Kaldi环境实现ASR语音识别
介绍:
该项目发布了一系列代码和实用程序,以开发最先进的DNN/RNN混合语音识别系统。DNN/RNN部分在pytorch中实现,而特征提取,对齐和解码使用Kaldi工具包执行。提供的系统的当前版本具有以下功能:
支持不同类型的NN(例如,MLP,RNN,LSTM,GRU,最小GRU,轻GRU)[1,2,3]
支持recurrent dropout
支持batch和图层规范化
支持单向/双向RNN
支持residual/skip连接
支持双正则化[4]
python2/python3兼容性
多gpu训练
recovery/saving checkpoints
可与kaldi轻松对接。
所提供的解决方案专为标准机器和HPC集群上的大规模语音识别实验而设计。
先决条件:
必须是Linux(我们在Ubuntu 17.04和各种版本的Debian上进行了测试)。
我们建议在GPU机器上运行代码。确保安装了cuda库(https://developer.nvidia.com/cuda-downloads)并且正常工作。我们在`cuda 9.0,9.1和8.0上测试了我们的系统。确保安装了python(代码使用python 2.7和python 3.6进行测试)。建议使用Anaconda`(https://anaconda.org/anaconda/python)。