中文语音生成模型vits-chinese运行实践

最新推荐文章于 2024-06-01 09:36:39 发布

AI印象

最新推荐文章于 2024-06-01 09:36:39 发布

阅读量566

点赞数

文章标签：深度学习语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_50072136/article/details/135158003

版权

一环境配置

一台笔记本

安装pycharm pip miniconda3

在conda env环境中安装pip依赖并运行工程代码

注意：如果安装pip依赖WeTextProcessing失败，原因是其依赖pynini安装失败，其解决方法如下

conda install -c conda-forge pynini

pip install WeTextProcessing

二工程代码路径

可直接在cpu上运行，包含依赖模型，底模文件，标贝数据集和修改后文件，可节省不少调试时间

工程压缩后总大小3.54G

扫码支付后得到百度网盘下载地址，然后自行下载

扫码支付-八图片

三模型原理

vits-chinese 是在vits网络上的改进

vits网络前面已经介绍过，这里不再累述

改进点在于：

1. 使用bert中文模型处理音频中的中文信息，作为vits网络的输入bert

2. 将音频中的中文拼音分开为声母和韵母，然后将其数字化，作为vits网络的输入x

将音频进行短时帧傅里叶变换，作为vits网络的输入spec，这个和原网络一致

speaker id作为vits网络的输入sid，这个和原网络一致

四训练

目的：新增speaker:Arik的语音训练

这里是直接使用标贝数据集作为Arik的语音进行训练，当然也可以基于标贝数据集的label，自行录制语音进行替换，制作自己的数据集

重采样

python prep_resample.py --wav train/wav/ --out vits_data/waves-16k

规范化label

python prep_format_label.py --txt train/000001-010000.txt --out vits_data/lables.txt --speaker Arik

数据预处理

python prep_bert.py --conf configs/bert_vits.json --data vits_data/

数据调试

python prep_debug.py

启动训练

cd monotonic_align

python setup.py build_ext --inplace

cd ../

python train.py -c configs/bert_vits.json -m bert_vits

推理

python vits_infer.py -c configs/bert_vits.json -m logs/bert_vits/G_xxx.pth -i 0

推理效果如下，

文本：遥望星空作文独自坐在乡间的小丘上，看着阳光渐渐变暗，听着鸟鸣渐渐变弱，触着清风渐渐变凉

输出音频：

不支持格式，就不放了

实际运行过程中，训练4个来回后，输出的语音已经很接近Arik的音色，其收敛效果比前面介绍的so-vits-svc模型好很多，该模型可强烈推荐作为中文语音转换的标杆模型。

附：

该工程代码基于vits-chinese，其源码地址如下：

GitHub - PlayVoice/vits_chinese at bert_vits_aishell3

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
中文语音生成模型vits-chinese运行实践

实际运行过程中，训练4个来回后，输出的语音已经很接近Arik的音色，其收敛效果比前面介绍的so-vits-svc模型好很多，该模型可。这里是直接使用标贝数据集作为Arik的语音进行训练，当然也可以基于标贝数据集的label，自行录制语音进行替换，制作自己的数据集。可直接在cpu上运行，包含依赖模型，底模文件，标贝数据集和修改后文件，可节省不少调试时间。2. 将音频中的中文拼音分开为声母和韵母，然后将其数字化，作为vits网络的输入x。speaker id作为vits网络的输入sid，这个和原网络一致。
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI印象 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。