RapidASR项目(语音转文本)：更快、更容易部署、开箱即用

Liekkas Kono

已于 2023-03-10 21:09:03 修改

阅读量4.6k

点赞数 3

分类专栏： RapidAI 文章标签： ASR 语音转文本

于 2022-03-05 09:41:30 首次发布

本文链接：https://blog.csdn.net/shiwanghualuo/article/details/123289584

版权

19 篇文章 1 订阅

订阅专栏

本人就是该项目的贡献者之一！！！
目前在语音转文本的开源项目中，wenet算是其中翘楚，虽说在wenet repo下的README中写的是：

WeNet 是一款面向工业落地应用的语音识别工具包，提供了从语音识别模型的训练到部署的一条龙服务。
但是整个项目依赖着PyTorch整个生态，真正部署使用还是会面临依赖包很大很多的问题。同时推理代码不是很清楚明朗，初上手往往不知所措。
很多时候，我们想要看的往往就是一个demo，就是想要跑一个自己遇到的音频文件，看看识别效果如何，这看似简单的诉求，却很难看到。
因此，我们RapidAI-NG Team推出了由wenet项目衍生出的专注推理的项目—RapidASR。我们从庞大复杂的wenet中抽取其中核心推理代码部分，去除PyTorch相关的依赖，采用更小更快的同等功能库替代，这使得该项目对于工业落地场景，更加友好。这也算是为工业落地的最后一公里略尽绵薄之力吧！

该项目仓库主要是基于C++和Python两个语言下的推理代码整理，其中，我主要负责Python部分的整理。由于C++部分，目前我还不是太擅长，所以在本篇文章中，着重介绍Python部分的情况。
Python部分，我是本着开箱即用的原则来整理的。同时给出了一个运行的示例demo，力图做到简洁直观。整体结构目录如下：
```
RapidASR/python
├── pretrain_model
├── README.md
├── requirements.txt
├── test_data
├── test_demo.py
└── wenet
```

该项目主要依赖的包有如下，完全满足易用易部署问题。

onnxruntime==1.8.1
numpy==1.20.3
scipy==1.7.1
SoundFile==0.10.3.post1
librosa==0.9.1