python语音识别开源库_一个超容易上手的端到端开源语音识别项目--TensorflowASR

这是一个基于Tensorflow的端到端语音识别项目,集成CTC、RNN-Transducer、Listen Attention and Spell等最新结构。提供实时性能、C++接口,并包含预训练模型。支持多种模型,如Conformer、Transformer等,适用于Python和C++环境。项目持续更新,欢迎反馈和参与建设。
摘要由CSDN通过智能技术生成

自己开了一个state-of-the-art的端到端语音识别项目,后续会不断更新和优化的。

当前还处于一个开发阶段,可能存在一些bug,欢迎大家使用并反馈bug。

有什么意见建议可以在issue或者在这里提。代码地址见下。

最近没有时间更新代码了,开了一个技术交流群,大家一起来建设吧。欢迎加入。

TensorflowASR

简介:

该项目集成了当前业界最新的语音识别结构,包括CTC、RNN-Transducer、Listen Attention and Spell。使用简单,容易上手。

CTCRNN-TransducerListen Attention and Spell

特点:tensorflow的音频Mel特征提取层,用以支持跨平台的端到端集成

参照librosa的mel特征提取逻辑:

librosa:

mel layer:

实时响应性能

C++接口调用方案

已支持的模型:

Mel_layer+Conformer+CTC

+Transducer

+LAS

DeepSpeech2

ESPNet

TransformerO2O-Encoder-Decoder

O2O-Encoder

Typic

声学模型

Conformer模型为google 今年5月发表的论文中提及:https://arxiv.org/abs/2005.08100​arxiv.or

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值