2018年,Espnet团队开源了Espnet(end-to-end speech processing toolkit),可实现端到端 ASR系统(还有TTS系统,这里只介绍ASR).它包含了两大亮点一个是融合了Kaldi的数据处理和特征提取风格,另一个是借助Pytorch和Chainer作为主要的深度学习引擎,实现了端到端(E2E)模型训练. 同时它也涵盖了多种常用的模型架构,包括CTC、Attention、RNN-T、Transformer.
在基于混合CTC/注意力的端到端ASR中,通过 CTC/注意力多任务训练进行快速准确的训练,使用联合解码提升单调对齐解码,编码器多样化,包括VGG-like CNN + BiRNN (LSTM/GRU), sub-sampling BiRNN (LSTM/GRU) or Transformer.语言模型架构包括 RNNLM/LSTMLM/TransformerLM/N-gram,可以实现批量 GPU 解码.可用基于 RNN 的编码器/解码器或自定义编码器/解码器,支持 Transformer、Conformer、TDNN(编码器)和因果 conv1d(解码器)块。还支持混合 RNN/自定义编码器-解码器、VGG2L(RNN/Cutom 编码器)和各种解码算法。在CTC分割上,可以实现基于Mask-CTC的非自回归模型.
用于训练的数