自己开了一个state-of-the-art的端到端语音识别项目,后续会不断更新和优化的。
当前还处于一个开发阶段,可能存在一些bug,欢迎大家使用并反馈bug。
有什么意见建议可以在issue或者在这里提。代码地址见下。
最近没有时间更新代码了,开了一个技术交流群,大家一起来建设吧。欢迎加入。
TensorflowASR
简介:
该项目集成了当前业界最新的语音识别结构,包括CTC、RNN-Transducer、Listen Attention and Spell。使用简单,容易上手。
CTCRNN-TransducerListen Attention and Spell
特点:tensorflow的音频Mel特征提取层,用以支持跨平台的端到端集成
参照librosa的mel特征提取逻辑:
librosa:
mel layer:
实时响应性能
C++接口调用方案
已支持的模型:
Mel_layer+Conformer+CTC
+Transducer
+LAS
DeepSpeech2
ESPNet
TransformerO2O-Encoder-Decoder
O2O-Encoder
Typic
声学模型
Conformer模型为google 今年5月发表的论文中提及:https://arxiv.org/abs/2005.08100arxiv.or