歌声转唱模型So-vits-svc4.1训练讲解，轻松做出声音克隆，数据处理和训练讲解（二）

Davis778

已于 2024-04-22 19:49:26 修改

阅读量852

点赞数 3

文章标签：深度学习人工智能机器学习

于 2024-04-22 19:10:01 首次发布

本文链接：https://blog.csdn.net/Davisshuail/article/details/138087960

版权

本文指导如何在Autodl上训练主模型和扩散模型，详细说明了模型权重下载、配置文件处理、推理过程及音频质量评估方法。下期将深入解析模型结构和优化策略。

摘要由CSDN通过智能技术生成

话接上文，在autodl上进行主模型的训练后，可以看到quickly.ipynb的下面还有个扩散模型训练的代码，这个扩散模型训练可以增强你的歌声转唱效果，同样也是在终端输入训练，2-3w步即可。

在训练完主模型后，需要将./logs/44k中的G开头的模型，比如G_28800.pth模型下载下来，接着要将./config文件夹下的config.json文件下载下来（重要！）。将这两个文件都放入本地整合包的对应文件夹下（比如G_28800.pth放在./logs/44k，config.json放在./configs里面）。一定要下载这个config.json，不然推理时会出现不匹配的情况。下载权重和配置文件后，将我前文提到的整合包也下载下来，打开so-vits-svc文件夹，运行"启动webui.bat"文件，注意要连接网络。等待一两分钟后便会弹出推理界面，有些电脑第一次可能比较慢，耐性等待即可。

接着选择自己下载下来的文件，我这里都下载下来了并且改了名字，选择完如下所示：

之后便可点击加载模型，将其加载在自动选择的设备上（可能是CPU也可能是GPU，Auto即为默认最佳的选择）

之后上传的音频也必须是去除掉背景音乐的纯人声（注意，一定要是纯人声，按照上一篇的UVR使用教程即可）。之后便可选择下面的音频转换得到组中的歌曲，如果自己训练了扩散模型，那也可以选择扩散步数，建议60-100步比较好。f0预测器的选择我建议是fcpe，推理速度最快，效果也和别的相差无几。

最后推理出来就可以试听了，我的3060推理只需要20秒左右，还是非常快的。

最后推理出来的歌声可以通过MOS值（也就是自然度）来判断好坏，判断MOS的代码如下：GitHub - gabrielmittag/NISQA: NISQA - Non-Intrusive Speech Quality and TTS Naturalness Assessment。只需将推理出的歌声放在这个项目的./results文件夹下，然后运行python run_predict.py --mode predict_file --pretrained_model weights/nisqa.tar --deg ./resutls/1.wav --output_dir ./csv就可以了。会在终端输出MOS，3.5以上就算优秀了。

下一期我会出一期对模型结构的比较详细的解读，以及我设想的一些模型或者优化算法的改进。