一、环境准备
1、安装手册
https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/README_cn.md#%E5%AE%89%E8%A3%85
2、飞桨官网
https://www.paddlepaddle.org.cn/
3、本人使用的环境
win10+miniconda3+python3.9+cuda12.0+cuDNN8.8.0+PaddlePaddle2.6
二、miniconda3的安装及python虚拟环境创建
1、官方下载地址
https://docs.anaconda.com/miniconda/
2、安装流程
(1)根据安装程序提示进行安装,注意一下安装包的存放位置就行
(2)在系统变量中,path下添加miniconda的路径
(3)测试环境变量是否生效
conda --version
3、python虚拟环境创建
# conda create -n 虚拟环境名字 python=版本
conda create -n xhtPython python=3.9
注意创建过程中会提示确认输入:y
# 查看创建的虚拟环境
conda env list
# 切换到此环境下
conda activate xhtPython
在此环境下我们就可以使用python、pip相关的命令了
三、cuda12.0、cuDNN8.8.0的安装
1、下载地址
cuda: https://developer.nvidia.com/cuda-toolkit-archive
cuDNN: https://developer.nvidia.com/rdp/cudnn-archive
2、cuda12.0安装
(1)按照安装程序提示安装,此处推荐选择自定义安装
(2)注意此处最好取消勾选Nsight VSE,这个选项可能会造成安装报错
参考:https://blog.csdn.net/A_No2Tang/article/details/133153402
(3)cuda会自动配置环境变量
ncvv --version
3、cuDNN8.8.0的安装
(1)解压之后,复制三个文件夹,放入cuda的安装文件夹中
(2)安装验证,进入cuda安装文件下extras\demo_suite中,依次输入bandwidthTest.exe 和 deviceQuery.exe,出现如下输出则表示安装成功
四、paddlespeech安装
1、安装命令(建议挂梯子)
# paddlepaddle-gpu版本安装
python -m pip install paddlepaddle-gpu==2.6.1.post120 -f https://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.html
pip install pytest-runner
pip install paddlespeech
2、测试语音识别
测试语音下载地址:https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
paddlespeech asr --lang zh --input zh.wav
注意:可能会出现一些缺少依赖或者版本不匹配的报错,比如numpy的版本报错,都会在命令行中提示,可参考https://github.com/PaddlePaddle/PaddleSpeech/discussions/1195 查找问题
3、自主录音测试
如果尝试自己录一段普通话音频转文字,直接进行语音识别会报格式错误,需要指定rate和bits的值,可考虑通过ffmpeg来进行文件格式转换
这里提示需要rate 16k、bits 16
# ffmpge转换命令
ffmpeg -i test.m4a -ar 16k -ab 16 output.wav
# 识别刚刚转换的音频文件
paddlespeech asr --lang zh --input output.wav
4、语音合成测试
paddlespeech tts --input "你好,欢迎光临!" --output out.wav
在使用语音合成时,可能会遇到一些包版本冲突的问题,比如scipy、numpy、matplotlib
这里修改一下版本
# 我使用的版本,具体请按照paddle版本修改
pip install --upgrade scipy==1.7.3
pip install --upgrade numpy==1.22.4
pip install --upgrade matplotlib==3.3.0
# 查看pip各依赖包版本
pip list
五、Speech Server的安装部署
参考地址:https://aistudio.baidu.com/projectdetail/4354592?sUid=2470186&shared=1&ts=1660878208266
1、拉取源码,安装依赖
# 从gitee上获取源码
git clone -b r1.2 https://gitee.com/paddlepaddle/PaddleSpeech
#进入源码包
cd PaddleSpeech
#安装依赖
pip install pytest-runner
pip install .
pip install uvicorn==0.18.3
pip install typeguard==2.13.3
# 开启服务,application.yaml中的配置可参考官方文档,默认服务地址127.0.0.1:8090
paddlespeech_server start --config_file ./paddlespeech/server/conf/application.yaml
以下输出表示启动成功
随即使用命令测试
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input D:\wavTest\zh.wav
2、python客户端调用
调用server对外暴露的http接口,接口说明:https://github.com/PaddlePaddle/PaddleSpeech/wiki/PaddleSpeech-Server-RESTful-API
# 语音识别测试
from paddlespeech.server.bin.paddlespeech_client import ASRClientExecutor
asrclient_executor = ASRClientExecutor()
res = asrclient_executor(
input="D:\wavTest\zh.wav",
server_ip="127.0.0.1",
port=8090,
sample_rate=16000,
lang="zh_cn",
audio_format="wav")
print(res)
成功输出