引言
-
本人就是该项目的贡献者之一!!!
-
目前在语音转文本的开源项目中,wenet算是其中翘楚,虽说在wenet repo下的README中写的是:
WeNet 是一款面向工业落地应用的语音识别工具包,提供了从语音识别模型的训练到部署的一条龙服务。
-
但是整个项目依赖着PyTorch整个生态,真正部署使用还是会面临依赖包很大很多的问题。同时推理代码不是很清楚明朗,初上手往往不知所措。
-
很多时候,我们想要看的往往就是一个demo,就是想要跑一个自己遇到的音频文件,看看识别效果如何,这看似简单的诉求,却很难看到。
-
因此,我们RapidAI-NG Team推出了由wenet项目衍生出的专注推理的项目—RapidASR。我们从庞大复杂的wenet中抽取其中核心推理代码部分,去除PyTorch相关的依赖,采用更小更快的同等功能库替代,这使得该项目对于工业落地场景,更加友好。这也算是为工业落地的最后一公里略尽绵薄之力吧!
RapidASR
-
该项目仓库主要是基于C++和Python两个语言下的推理代码整理,其中,我主要负责Python部分的整理。由于C++部分,目前我还不是太擅长,所以在本篇文章中,着重介绍Python部分的情况。
-
Python部分,我是本着开箱即用的原则来整理的。同时给出了一个运行的示例demo,力图做到简洁直观。整体结构目录如下:
RapidASR/python ├── pretrain_model ├── README.md ├── requirements.txt ├── test_data ├── test_demo.py └── wenet
-
该项目主要依赖的包有如下,完全满足易用易部署问题。
onnxruntime==1.8.1 numpy==1.20.3 scipy==1.7.1 SoundFile==0.10.3.post1 librosa==0.9.1
-
速度情况:
在测试test_data/test.wav
时,纯CPU,推理速度大概0.5s左右一条 -
在Python部分的README中,给出了保姆级别的安装教程,感兴趣的话,可以移步README