PaddleSpeech 的环境搭建与使用(windows10)

一、环境搭建准备
安装Anaconda
 

Anaconda3-2024.02-1-Windows-x86_64.exe

CUDA安装

下载地址:https://developer.nvidia.cn/zh-cn/cuda-toolkit

下载安装 cuda_11.7.0_516.01_windows.exe

cuDNN安装

地址为:cuDNN Archive | NVIDIA Developer

先找到与CUDA对应的版本

cudnn-windows-x86_64-8.4.1.50_cuda11.6-archive.zip

将cuDNN目录下三个文件粘贴到CUDA的目录下

二、为paddlespeech创建虚拟环境

以下命令为创建名为”paddle_speech“ 的虚拟环境

创建命令:conda create -n paddle_speech python=3.8

激活conda环境:conda activate paddle_speech

三、安装C++编译环境
(如果你系统上已经安装了 C++ 编译环境,请忽略这一步。)

对于 Windows 系统,需要安装 Visual Studio 来完成 C++ 编译环境的安装。

下载地址:https://visualstudio.microsoft.com/visual-cpp-build-tools/

主要是Visual Studio Installer 中勾选 C++桌面开发。

勾选完成直接点继续,开始安装

安装paddlepaddle
paddlespeech依赖于paddlepaddle,我们需要先安装paddlepaddle:

CPU版

python -m pip install paddlepaddle==2.4.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

GPU版

python -m pip install paddlepaddle-gpu==2.4.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

安装paddlespeech

最后安装paddlespeech

pip install paddlespeech==1.0.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

测试效果

paddlespeech tts --input "湖北十堰竹山县的桃花摇曳多姿,和蓝天白云一起,构成一幅美丽春景。" --output output.wav --am fastspeech2_csmsc --voc hifigan_csmsc --lang zh --spk_id 174

最后清单列表如下:

(paddlespeech) D:\>pip list
Package             Version
------------------- -----------
aiohttp             3.9.5
aiosignal           1.3.1
annotated-types     0.7.0
anyio               4.4.0
astor               0.8.1
async-timeout       4.0.3
attrs               23.2.0
audioread           3.0.1
Babel               2.15.0
bce-python-sdk      0.9.14
blinker             1.8.2
Bottleneck          1.4.0
certifi             2024.6.2
cffi                1.16.0
charset-normalizer  3.3.2
click               8.1.7
colorama            0.4.6
coloredlogs         15.0.1
colorlog            6.8.2
contourpy           1.1.1
cycler              0.12.1
Cython              3.0.10
datasets            2.20.0
decorator           5.1.1
dill                0.3.4
Distance            0.1.3
dnspython           2.6.1
editdistance        0.8.1
email_validator     2.1.2
exceptiongroup      1.2.1
fastapi             0.111.0
fastapi-cli         0.0.4
filelock            3.15.3
Flask               3.0.3
Flask-Babel         2.0.0
flatbuffers         24.3.25
fonttools           4.53.0
frozenlist          1.4.1
fsspec              2024.5.0
future              1.0.0
g2p-en              2.1.0
g2pM                0.1.2.5
h11                 0.14.0
h5py                3.11.0
httpcore            1.0.5
httptools           0.6.1
httpx               0.27.0
huggingface-hub     0.23.4
humanfriendly       10.0
idna                3.7
importlib_metadata  7.1.0
importlib_resources 6.4.0
inflect             7.2.1
itsdangerous        2.2.0
jieba               0.42.1
Jinja2              3.1.4
joblib              1.4.2
jsonlines           4.0.0
kaldiio             2.18.0
kiwisolver          1.4.5
librosa             0.8.1
llvmlite            0.41.1
loguru              0.7.2
lxml                5.2.2
markdown-it-py      3.0.0
MarkupSafe          2.1.5
matplotlib          3.7.5
mdurl               0.1.2
mock                5.1.0
more-itertools      10.3.0
mpmath              1.3.0
multidict           6.0.5
multiprocess        0.70.12.2
nara-wpe            0.0.10
nltk                3.8.1
numba               0.58.1
numpy               1.22.0
onnxruntime         1.18.0
opt-einsum          3.3.0
orjson              3.10.5
packaging           24.1
paddle-bfloat       0.1.7
paddle2onnx         1.0.6
paddleaudio         1.0.1
paddlefsl           1.1.0
paddlenlp           2.5.2
paddlepaddle        2.4.2
paddlespeech        1.0.1
paddlespeech-feat   0.1.0
pandas              2.0.3
pathos              0.2.8
pattern_singleton   1.2.0
pillow              10.3.0
pip                 24.1
platformdirs        4.2.2
pooch               1.8.2
portalocker         2.8.2
pox                 0.3.4
ppft                1.7.6.8
praatio             5.0.0
prettytable         3.10.0
protobuf            3.20.0
pyarrow             16.1.0
pyarrow-hotfix      0.6
pycparser           2.22
pycryptodome        3.20.0
pydantic            2.7.4
pydantic_core       2.18.4
Pygments            2.18.0
pyparsing           3.1.2
pypinyin            0.51.0
pypinyin-dict       0.8.0
pyreadline3         3.4.1
python-dateutil     2.9.0.post0
python-dotenv       1.0.1
python-multipart    0.0.9
pytz                2024.1
pywin32             306
pyworld             0.3.4
PyYAML              6.0.1
regex               2024.5.15
requests            2.32.3
resampy             0.2.2
rich                13.7.1
sacrebleu           2.4.2
scikit-learn        1.3.2
scipy               1.10.1
sentencepiece       0.1.99
seqeval             1.2.2
setuptools          69.5.1
shellingham         1.5.4
six                 1.16.0
sniffio             1.3.1
soundfile           0.12.1
starlette           0.37.2
sympy               1.12.1
tabulate            0.9.0
TextGrid            1.6.1
threadpoolctl       3.5.0
timer               0.3.0
tqdm                4.66.4
typeguard           2.13.3
typer               0.12.3
typing_extensions   4.12.2
tzdata              2024.1
ujson               5.10.0
urllib3             2.2.2
uvicorn             0.30.1
visualdl            2.4.2
watchfiles          0.22.0
wcwidth             0.2.13
weAI编程brtcvad           2.0.10
websockets          12.0
Werkzeug            3.0.3
wheel               0.43.0
win32-setctime      1.1.0
xxhash              3.4.1
yacs                0.1.8
yarl                1.9.4
zhon                2.0.2
zipp                3.19.2

  • 14
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,下面是使用 PaddleSpeech 进行语音识别的代码示例: 首先,需要安装 PaddlePaddlePaddleSpeech 库: ```python !pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple !pip install paddlespeech -i https://mirror.baidu.com/pypi/simple ``` 然后,加载语音识别模型: ```python import paddle import paddlespeech as ps model = ps.models.DeepSpeech2( vocab_size=26, num_conv_layers=2, num_rnn_layers=3, rnn_layer_size=1024, use_gru=True, share_rnn_weights=False, use_cudnn_rnn=True, dropout_prob=0.1, init_scale=0.1, spec_augment_config={ "freq_masks": 2, "time_masks": 2, "freq_num": 1, "time_num": 1, "max_frames": 10000 } ) model.set_dict(paddle.load("deepspeech2.pdparams")) ``` 其中,`deepspeech2.pdparams` 是预训练好的语音识别模型参数。 接下来,可以使用该模型进行语音识别: ```python import librosa # 加载音频文件 audio_file = "test.wav" audio, sr = librosa.load(audio_file, sr=16000) # 获取音频特征 features = ps.featurizers.FilterBankFeaturizer( sample_rate=16000, num_filters=40, fft_length=1024, hop_length=160 ).transform(audio) # 转换为 PaddlePaddle 的 Tensor 格式 features = paddle.to_tensor(features) # 执行语音识别 text = model.decode(features) print(text) ``` 其中,`test.wav` 是要进行语音识别音频文件。`FilterBankFeaturizer` 是一个用于提取音频特征的类,它将音频转换为 MFCC 等特征表示。`decode` 方法将音频特征作为输入,输出识别结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值