首先需要声明的一点就是V1的模型能用在V2上面,但是V2的模型不能用在V1上,并且V1模型在V2上效果不佳!
整合包下载地址:
GPT-SoVITS V2整合包下载
https://klrvc.com/ GPT-SoVITS V2模型下载网
这次V2更新了以下功能
UVR5:
1.将hp2模型替换为model_bs_roformer_ep_317_sdr_12.9755模型,大幅提升分离人声的效果。
2.新增DeEchoNormal和DeReverb模型。去混响效果Normal<Aggressive
切分&降噪&打标&校对:
1.自动填充路径
2.funasr增加粤语,whisper增加韩语和粤语标注功能。funasr的粤语标注更为准确
3.whisper可选推理精度,float16可以带来更快的推理速度
预处理:
1.中文改为G2PW处理以优化多音字效果,但处理速度变慢了
2.优化了英文多音字效果,处理速度也变快了
训练:
1.全新底膜,训练集增加到5k小时
2.增加韩粤两种语言
3.训练所需数据集更少
推理:
1.zero shot效果大幅增强
2.中日英韩粤5个语种均可跨语种合成
3.对低音质参考音频合成出来音质更好
4.更好的文本前端,中英文加入多音字优化
5.增加语速调节
6.增加音色融合
以上具体的更新内容来自官方给出的信息,这些内容也在后来我使用V2推理得到了验证,其实使用V2和V1并没有什么区别,WEBUI就多了一个降噪功能,其他的都一样。
接下来让我们教大家如何在V2中训练出自己的模型吧。
其中我将省略干音数据集的制作过程,因为这一步非常繁琐,其中包括降噪 和声分离 去混响 音质增强等步骤,有机会我会特别制作一期教程。
如果您是整合包执行下面的代码进入V2和V1
python webui.py <language(optional)>
python webui.py v1 <language(optional)>
其中<language(optional)>做了国际化处理,如果你使用的是云端可以查看这篇文章的教程。https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official
接下来正式进入到我们的图文教程
打开WEBUI首先第一步就是音频的分离与降噪,如果您之前就已经用其他降噪分离软件处理的话,这一步可以省略,否则必须进行这一步进行分离,这里你只需要设置音频自动切分文件夹或文件,输出目录最好不要再去调整,除非你有足够的耐心,因为所有的步骤,作者都已经默认给你填写了,你只需要填一个输入路径即可。
这里V2新增了一个语音降噪功能,之前V1版本是没有的,但是也请在这个功能之前先降噪一遍自己的音频,在使用这个功能,之后就是标注我们的文件,这个标注和V1使用的方法是一样的。
到这一步开始打标,我们需要注意的是你的打标文件的路径,如果不知道自己的项目打标路径可以看看控制台,在ASR自动打标的时候会输出一个路径,填写这个路径即可。
上面就是控制台输出的打标文件路径,填写之后开启打标WEBUI即可。
控制台会输出URL地址,复制这个地址在浏览器打开即可进入打标页面
打标这里需要注意的是这里还是和V1版本一样,首先修改错别字,之后修改停顿点,这里特别重要,会影响最终模型的输出效果,其中[Previous Index]是上一页,[Next Index]是下一页,[Save File]是保存文件,[Submit Text]是重载打标文件。正确的顺序是当我们修改一页的打标后,点击保存文件Save File,之后在进入Next Index下一页,不点保存否则无效。
之后我们来到推理分页,这里需要设置的就是你的模型文件名以及文本标注路径以及分割后的音频文件目录,这里得填写正确,否则三连的时候会出错,如果你没有修改默认输出目录的话,这一步你就填写个模型名就可以了。
其他的都不需要动,直接[开启一键三连即可],完成后会自动提示完成。
点击微调训练,这一步引用作者的原话就是如果您的数据集不是很好,那么这一步默认轮数就可以,否则会物极必反,效果会很差。点击开启训练即可。
以上是训练完成的最终的输出信息
训练完成之后,点击刷新模型路径,选择自己训练的模型,也就是你刚刚输入的模型名一个GPT模型列表和SoVITS模型列表,都需要一致才可行。
点击开启TTS推理WEBUI后在控制台会输出一个新的URL地址,复制打开即可。
用法和V1一样,不过多了几个选项就是语速和音色稳定功能,防止上次音频和本次生成的音频音色不一致的问题。这里我测试了一下,长文本,大概有200字左右。
这里我用的是2080T(11GB)的显卡作为推理,最终生成的时间为13秒左右,生成速度更是达到了180it/s,比上一代版本提升的速度很快。
总体对比下来,V2的提升绝对不止一点,V2的提升无论是在音色还是速度的上,真正的达到了,跨版本的大更新,之前我在使用V1版本的模型推理上,由于一些早期数据集的音质影响下,生成出来的模型结果也是大失所望,好在V2的发布弥补了这些问题。