01、DeepSpeech2在windows下的部署与测试

1、安装anaconda

1.1 下载安装包

Anaconda 官网:https://www.anaconda.com/download/
镜像网站:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

1.2 安装

Install for 选择 just me 即可;
在这里插入图片描述

第一个选项是添加环境变量,可以选择勾选(我这里直接勾选),之后在 cmd 中可直接运行 conda 命令,调出python 等。之后点击 install 进行安装;
在这里插入图片描述

1.3 anaconda打不开怎么办

step1:conda update conda
step2:conda update --all

1.4 配置环境

也可以在页面进行操作

# 在anaconda prompt中使用以下命令查看已有的虚拟环境
conda info -e
# 使用以下命令新建一个虚拟环境(your_env_name自己命名,python版本号要对应):如果不想用命令行创建也可以在图像化界面中直接创建一个
conda create -n py37 python=3.7.16
# 使用一下命令激活虚拟环境,并将相应的pytorch包放入其中或者下载到对应文件夹下
conda activate py37
# 调整一下你的下载源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

2 源码下载

下载链接:https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech

3 搭建环境

3.1 安装PaddlePaddle-GPU版本
conda activate py37 #为与其它环境相互干扰,创建的虚拟环境,进入虚拟环境下,进行以下操作
conda install paddlepaddle-gpu==2.1.3 cudatoolkit=10.2 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/
3.2 安装其它依赖库
cd xxxx#进入源代码目录下
python -m pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/

在此过程中,pyaudio会安装失败,故在下面链接找到python3.7对应的依赖包下载离线安装:
https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyaudio

3.3 解决error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“:

安装Microsoft C++ 生成工具 - Visual Studio:https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/
在这里插入图片描述

然后勾选使用c++的桌面开发:

在这里插入图片描述

等待下载安装成功

4.下载模型

数据集卷积层数量循环神经网络的数量循环神经网络的大小测试集字错率下载地址
aishell(179小时)2310240.084532点击下载
free_st_chinese_mandarin_corpus(109小时)2310240.170260点击下载
thchs_30(34小时)2310240.026838点击下载

实践中选择字错率最低的下载,下载完成后解压,将dataset文件夹中mean_std.npz与zh_vocab.txt拷贝至源码**./dataset**目录下,将models文件夹拷贝至源码根目录下。

5、导出预测模型

python export_model.py --resume_model=./models/param/50.pdparams
5.1 解决报错:
pip install --upgrade setuptools

pip install --upgrade Pillow
5.2 安装Cuda和Cudnn
  • Cuda下载地址:Cuda10.0
  • Cudnn下载地址(需要登录):Cudnn

注意:Cudnn的版本需要与Cuda对应

win11+anaconda3+python3.7+cuda10.0+cudnn7.6.0+PaddlePaddle 2.1.3
  • Cuda安装

    • 运行exe安装包

    • 自定义安装

    • 安装Cuda即可(驱动等其他东西一般windows已经安装了最新版)

  • 安装Cudnn

    • 解压zip压缩包,复制所有文件到Cuda安装目录下,如:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.0
  • 验证安装

    • Cuda: nvcc -V

      在这里插入图片描述

    • Cudnn: nvidia-smi
      在这里插入图片描述

如果没有nvida的GPU是安装不成功的,需要根据提示修改源码,改为使用cpu

6、使用语音文件测试

python infer_path.py --wav_path=./dataset/test.wav

在这里插入图片描述

长语音预测执行以下命令:

python infer_path.py --wav_path=./dataset/test_vad.wav --is_long_audio=True

7、服务端部署

如果本地运行,实现录音功能,将IP地址改成localhost,录音完成点击上传,支持中文数字转阿拉伯数字,将参数–to_an设置为True即可,默认为True

8、GUI界面部署

python infer_gui.py
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
DeepSpeech2 是一种深度学习模型,用于语音识别任务。训练 DeepSpeech2 模型通常需要以下步骤。 首先,我们需要收集大量的语音数据集。这个数据集应涵盖不同语音特点、不同说话人的语音样本,以及各种背景噪声条件下的语音录音。这些数据集的收集可以通过让人们朗读特定的文本,或者从已有的公开语音数据集中获取。 接下来,我们需要对这些语音样本进行预处理。预处理步骤包括音频波形的采样率转换、去噪处理、语音特征提取等。常用的语音特征提取方法包括Mel频率倒谱系数(MFCC)、滤波器组频率(FBank)等。这些特征可以帮助模型捕捉语音的频谱特征。 然后,我们需要将处理后的语音数据集划分为训练集、验证集和测试集。训练集用于模型的训练,验证集用于调整模型的参数和超参数,测试集用于评估模型的性能。 接下来,我们需要构建 DeepSpeech2 模型。DeepSpeech2 模型通常由深度循环神经网络(RNN)和连接时序分类器(CTC)构建而成。RNN主要用于对语音序列进行建模,而CTC用于将RNN预测的序列与实际语音文本对齐。模型的构建可以通过TensorFlow、PyTorch等深度学习框架来实现。 在训练过程中,我们需要定义适当的损失函数来衡量模型预测与实际语音文本之间的差异。常用的损失函数包括CTC损失函数、交叉熵损失函数等。同时,我们还需要选择适当的优化器和学习率调度策略来调整模型的参数。 最后,我们需要经过多轮的训练迭代,不断调整模型的参数和超参数,直到模型在验证集上表现良好。训练过程中可以使用一些技巧,如批量归一化、正则化、Dropout等来提高模型的泛化能力和训练效果。 总而言之,DeepSpeech2 的训练是一个复杂而耗时的过程,需要从数据的收集和预处理,到模型的构建和训练,不断迭代调整参数,直到得到满意的结果。通过训练得到的 DeepSpeech2 模型可以用于识别语音输入,并将其转换为对应的文本输出。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云上凯歌

好活,当赏!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值