离线部署paddlespeech语音识别模型

最新推荐文章于 2024-09-10 13:32:43 发布

一车面包人

最新推荐文章于 2024-09-10 13:32:43 发布

阅读量1.1k

点赞数 3

文章标签：语音识别人工智能

本文链接：https://blog.csdn.net/qq_20368489/article/details/135975194

版权

python版本：3.9

安装paddlespeech:

pip install -i https://mirror.baidu.com/pypi/simple paddlepaddle==2.4.2
pip install -i https://mirror.baidu.com/pypi/simple paddlespeech

调用paddlespeech自带的语音识别模型，参考链接：

人工智能 - 一文读懂PaddleSpeech中英混合语音识别技术 - 百度飞桨 - SegmentFault 思否

第一次调用会自动下载ASR模型，模型默认下载地址在这里：

zh表示纯中文语音识别模型，zh_en表示中英文混搭模型。

进入目录可获取对应的模型压缩包，放在你想要的位置进行解压。

修改调用的config和ckpt_path参数就可以离线调用模型了

其中config为模型的model.yaml所在位置

ckpt_path为avg_10.pdparams所在位置，但要去掉后缀

这两个参数必须填写，否则还是会使用下载地址的模型。

如果出现找不到bpe_bpe_11297模型的bug，则需要在model.yaml中修改参数spm_model_prefix为这个文件所在的相对路径。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一车面包人

关注关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

离线环境的中文语音识别 paddlepaddle 与 Speech_Recognition（Sphinx）实践

shiter编写程序的艺术

07-03

2952

本文主要针对中文语音识别问题，选用常用的模型进行离线 demo 搭建及实践说明。

paddlespeech asr语音转录文字；FunASR使用；sherpa 实时、离线、rtsp流语音转录

weixin_42357472的博客

06-18

4162

2 条评论您还未登录，请先登录后发表或查看评论

基于PaddleSpeech的语音识别项目（已做好接口）

最新发布

09-11

基于PaddleSpeech的语音识别项目（已做好接口）

paddlespeech使用离线模型

精益求精

09-09

422

如果出现找不到bpe_bpe_11297模型的bug，则需要在model.yaml中修改参数spm_model_prefix为这个文件所在的相对路径。当第一次安装好paddlespeech时候，开始使用时候后，因为模型不存在，所以会等一段时间从互联网上下载到本地。进入目录可获取对应的模型压缩包，放在你想要的位置进行解压。这说明本地不存在相对应的模型，程序从互联网上下载。这两个参数必须填写，否则还是会使用下载地址的模型。

部署paddleSpeech

qq_38803651的博客

04-23

1148

执行from paddlespeech.cli.tts.infer import TTSExecutor报错。rm /usr/bin/python # 容器内没有python的话，这一步不需要做。加入： alias python=‘/usr/local/bin/python3’将nltk_data.tar.gz拷贝到容器/root目录下并解压。python flask_tts.py 启动成功。pip install lzma 获取不到。

科大讯飞离线语音识别安装与运行

weixin_34186931的博客

11-26

1102

先从官网下载sdk. 文件解析： bin/inc下有四个头文件：msp_errors.h msp_types.h qisr.h qtts.h msp_errors.h msp_types.h为通用数据结构的头文件，qisr.h是语音识别用的头文件，qtts.h是语音合成用的头文件。这是sdk中原代的解释： 1.doc目录下存放开发文档等； 2.lib目录下存放SDK需要调用的动态库以...

[PaddlePaddle飞桨] PaddleSpeech-自动语音识别-小模型部署

qq_45831414的博客

07-10

914

【代码】[PaddlePaddle飞桨] PaddleSpeech-自动语音识别-小模型部署。

paddlespeech 部署及安装

weixin_44798538的博客

07-13

1856

安装前请安装miniconda环境，不会的请参考上一篇文章。

百度飞桨语音PaddleSpeech在win上运行语音识别(ASR)与语音合成(TTS)

guigenyi的专栏

05-19

1908

PaddleSpeech是百度飞桨深度学习框架下的语音服务工具包。PaddleSpeech包括自监督学习模型、带标点符号的 SOTA/流式 ASR、带文本前端的流式 TTS、说话人验证系统、端到端语音翻译和关键字识别。我在部署运行过程中，遇到很多问题，参考了很多资料，在这里做一个从安装部署到运行测试的、详尽的记录。

asr-server:ASR（自动语音识别）服务器

04-06

2. **语音识别框架**：ASR服务器可能依赖于特定的ASR库，例如Google的Speech-to-Text API、Mozilla的DeepSpeech或阿里云的PaddleSpeech等。这些框架提供了训练模型和识别语音的功能，开发者通常只需要调用API并处理...

vosk-api：离线语音识别API，适用于Android，iOS，Raspberry Pi和具有Python，Java，C＃和Node的服务器

01-31

关于 Vosk是一个离线开源语音识别工具包。它支持17种语言和方言的语音识别模型-英语，印度英语，德语，法语，西班牙语，葡萄牙语，中文，俄语，土耳其语，越南语，意大利语，荷兰语，加泰罗尼亚语，阿拉伯语，希腊语，波斯语，菲律宾语。 Vosk模型很小（50 Mb），但提供连续的大词汇量转录，具有流API的零延迟响应，可重新配置的词汇量和说话者识别。为各种编程语言（如Python，Java，Node.JS，C＃，C ++等）实现的语音识别绑定。 Vosk为聊天机器人，智能家电，虚拟助手提供语音识别。它还可以为电影创建字幕，为演讲和访谈创建转录字幕。 Vosk从Raspberry Pi或Android智能手机等小型设备扩展到大型集群。文献资料有关安装说明，示例和文档，请访问。

PaddlePaddle-DeepSpeech中文语音识别模型（AISHELL数据集训练的）

03-18

PaddlePaddle-DeepSpeech中文语音识别模型（AISHELL数据集训练的）项目地址：https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech/tree/release/1.0

Deep-fsmn 科大讯飞模型 语音识别

01-21

DEEP-FSMN FOR LARGE VOCABULARY CONTINUOUS SPEECH RECOGNITION

离线语音识别模型

shizhu2的博客

06-27

410

离线语言识别解决方案。轻量级模型，识别率高，支持自定义模型，模型调用接口支持多种开发语言。

提速300%，PaddleSpeech语音识别高性能部署方案重磅来袭！

PaddlePaddle

12-28

5173

PaddleSpeech 1.3版本正式发布，ASR与TTS支持高性能部署

人工智能-语音识别技术paddlespeech的搭建和使用

没刮胡子的程序员专栏

12-05

2801

PaddleSpeech是百度飞桨（PaddlePaddle）开源深度学习平台的其中一个项目，它基于飞桨的语音方向模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。PaddleSpeech支持语音识别、语音翻译（英译中）、语音合成、标点恢复等应用示例。

语音识别系列︱paddlespeech的开源语音识别模型测试（三）

素质云笔记

10-07

7240

上一篇paddlehub是一些预训练模型，paddlespeech也有，所以本篇就是更新paddlespeech里面的模型。

PaddleSpeech 本地部署+启用流式服务

精益求精

09-10

1125

关于如何Windows本地搭建：PaddleSpeech 的window环境搭建搭建完成后，只要使用PaddleSpeech的命令行或python模式进行执行，但是如果要想通过API或Stream模式，还需要单独启动相关web/流式服务即可，关于流式的相关参考资料安装完成后，进入相关目录可以看到Server相关信息：通过以上我们可以看到安装目录下缺少conf配置文件，关于配置文件我们需要去下载相关源码，然后再Demo文件中存在相关配置：说明：语音合成-onnx模型速度比较快启动流式 ASR 服务:

java离线集成语音识别

10-20

Java离线集成语音识别是指在Java语言环境下使用离线模式进行语音识别的技术。离线语音识别是指不依赖于网络连接进行语音识别任务的方法，相比在线语音识别，具有更好的隐私保护和稳定性。在Java中实现离线集成语音识别，通常需要以下步骤： 1. 数据采集与预处理：使用Java语言配合相关的语音采集设备（如麦克风）进行声音的采集。采集到的声音数据需要进行预处理，包括降噪、格式转换等操作，以确保后续的识别准确性。 2. 特征提取：通过Java的音频处理库，对预处理后的声音数据进行特征提取，将声音信息转换为可以用于识别的特征向量。常用的特征提取方法包括MFCC（Mel频率倒谱系数）等。 3. 构建模型：使用Java的机器学习库或深度学习框架，使用提取到的特征向量训练离线语音识别模型。通常可以采用HMM（隐马尔可夫模型）或DNN（深度神经网络）等算法构建模型。 4. 识别：使用训练好的模型对新的声音数据进行识别。将预处理和特征提取的过程应用到输入声音数据上，并将处理后的特征向量输入到训练好的模型中进行识别。识别结果可以是文字转写或语音指令等。需要注意的是，离线集成语音识别对硬件资源要求较高，因为离线模式下需要进行大量的数据处理和模型计算。此外，对于Java离线集成语音识别的开发，也可以考虑使用相关的第三方库或API，以简化开发过程。