歌声转唱模型So-vits-svc4.1训练讲解,轻松做出声音克隆,数据处理和训练讲解(二)

本文指导如何在Autodl上训练主模型和扩散模型,详细说明了模型权重下载、配置文件处理、推理过程及音频质量评估方法。下期将深入解析模型结构和优化策略。
摘要由CSDN通过智能技术生成

话接上文,在autodl上进行主模型的训练后,可以看到quickly.ipynb的下面还有个扩散模型训练的代码,这个扩散模型训练可以增强你的歌声转唱效果,同样也是在终端输入训练,2-3w步即可。

在训练完主模型后,需要将./logs/44k中的G开头的模型,比如G_28800.pth模型下载下来,接着要将./config文件夹下的config.json文件下载下来(重要!)。将这两个文件都放入本地整合包的对应文件夹下(比如G_28800.pth放在./logs/44k,config.json放在./configs里面)。一定要下载这个config.json,不然推理时会出现不匹配的情况。下载权重和配置文件后,将我前文提到的整合包也下载下来,打开so-vits-svc文件夹,运行"启动webui.bat"文件,注意要连接网络。等待一两分钟后便会弹出推理界面,有些电脑第一次可能比较慢,耐性等待即可。

接着选择自己下载下来的文件,我这里都下载下来了并且改了名字,选择完如下所示:

之后便可点击加载模型,将其加载在自动选择的设备上(可能是CPU也可能是GPU,Auto即为默认最佳的选择)

之后上传的音频也必须是去除掉背景音乐的纯人声(注意,一定要是纯人声,按照上一篇的UVR使用教程即可)。之后便可选择下面的音频转换得到组中的歌曲,如果自己训练了扩散模型,那也可以选择扩散步数,建议60-100步比较好。f0预测器的选择我建议是fcpe,推理速度最快,效果也和别的相差无几。

最后推理出来就可以试听了,我的3060推理只需要20秒左右,还是非常快的。

最后推理出来的歌声可以通过MOS值(也就是自然度)来判断好坏,判断MOS的代码如下:GitHub - gabrielmittag/NISQA: NISQA - Non-Intrusive Speech Quality and TTS Naturalness Assessment。只需将推理出的歌声放在这个项目的./results文件夹下,然后运行python run_predict.py --mode predict_file --pretrained_model weights/nisqa.tar --deg ./resutls/1.wav --output_dir ./csv就可以了。会在终端输出MOS,3.5以上就算优秀了。

下一期我会出一期对模型结构的比较详细的解读,以及我设想的一些模型或者优化算法的改进。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值