GPT-SoVITS V2:深度定制你的专属语音 - 你得不到她,但你可以拥有她的声音

新版本的GPT-SoVITS V2,带来了声音克隆技术的全新突破,无论是游戏角色还是现实明星,都能轻松实现声音定制。

游戏角色声音克隆

cc8e2a2fb372996b43fca6238c189f46.jpeg

直面天命,最近黑神话悟空刷爆了各大平台,何不试试用GPT-SoVITS克隆悟空的声音?只需几步,你就能重现《大话西游》里那些令人难忘的经典台词!

[https://www.zhisk.com/wp-content/uploads/2024/08/heishenghua.mp3 播放MP3]


现实明星声音克隆
想象一下,每天早上都是你最喜欢的明星叫你起床。你准备好体验了吗?先来听听我的闹钟吧。
 

[https://www.zhisk.com/wp-content/uploads/2024/08/damimi.mp3 播放MP3]


听出来是谁在叫我起床了吗?没错,有了GPT-SoVITS V2,这一切都变得触手可及!只需提供一段简单的音频样本,再输入你想要她说的话,你也能拥有独一无二的声音体验。

心里是不是已经有了很多有趣的点子?赶快试试GPT-SoVITS V2,让你的创意变成现实吧!

GPT-SoVITS V2模型新特点(v2模型新特点)

(1)SoVITS:对低音质参考音频(尤其是来源于网络的高频严重缺失、听着很闷的音频)合成出来音质更好

SoVITS:提高了低质量参考音频(尤其是来自互联网的高频损失严重、声音低沉的音频)的合成质量。

(2)加大训练集到5k小时,零射击性能更好的音色基础

增加训练数据集:扩充至5k小时,增强零样本性能,使音色更加相似。

(3)增加2个语种,现在可训练5个语种之间相互跨语种合成(跨语种合成,指集、参考音频语种和需要合成的语种不同)

增加两种语言:现在支持五种语言之间的跨语言合成(跨语言合成意味着训练数据集、参考音频语言和要合成的语言都可以不同)。

(4)更好的文本前端:持续迭代更新。v2中英文加入了多音字优化。

改进的文本前端:持续更新。对于 v2,中文和英文已针对多音字符进行了优化。

获取指南

  • 一键整合包获取:关注公众好 InnoTechX,发送 “gsv” 获取。
  • 一键启动,不用配置复杂环境。
  • 下载不用开会员、取决你的网速

前置条件

  • 适用于 Windows 用户(Windows 10 及以上版本),英伟达显卡6G及以上。

使用步骤

  1. 下载解压包并解压到本地目录。
  2. 进入目录后,点击 go-webui.bat 即可启动程序。

注意:程序运行期间,请勿关闭 cmd 命令窗口。

TTS 推理一条龙

一、音频处理(音频有背景音乐的需要处理,如果是干声直接跳过看第二步)

首先要处理音频,保证音频只有人声。有两种方式,使用次数少直接使用第一种方式

①使用在线网站处理 https://vocalremover.org/zh/

aeeea23233d10a2148c8b0a9f225858f.jpeg

在去人声界面 选择音频文件上传

779075c63710ac705b00470e80a0cac6.jpeg

等待处理结束后,将音乐拉低,人声拉到最高,保存下载人声,即可进行第二步,无需再使用UVR5处理。这样直接获取比较纯净的人声

1e3682974a5f9b2d2249e6f27af6a2e9.jpeg

②使用GPT-SoVITS自带UVR5处理。(比较麻烦,如果使用次数少直接使用第一种方式)

1.点击 go-webui.bat 启动程序后,会有网页弹出

7df2964a417d517898e53059659ea9e6.jpeg

cae98310270c4841ee9d37b0a816bcf6.jpeg

2.点击是否开启UVR5-WebUI,稍等查看cmd输出,没有报错,便会自动打开UVR5-WebUI网页

0cf06803c5893551692d1ae0f62f7c44.jpeg

9d6a1d205f82aaf89906ad3c1e1d13de.jpeg

如果cmd窗口没有报错,但是浏览器没有弹出跳转,自己手动输入http://localhost:9873/ 到浏览器跳转

3.将自己准备好的音频文件的路径输入到路径输入框,或者直接拖拽到选择框

选择HP2_all_vocals处理,点击转换,等待处理完成

bb2f571962401dd05cd8deba7944ec32.jpeg

4.处理完后在输出目录会多两个文件,再次进行onnx_dereverb处理。将vocal开头的文件拖到文件选择框,选择onnx_dereverb处理

d01312290737e6d406c95e2b84b66ffb.jpeg

e3a402ccff7a78aaad1c0bfb692507df.jpeg

处理过程中,可能会卡住,比如我使用时在33%进度卡主,需要关掉cmd命令窗口,重新按之前步骤打开UVR5,继续把上面图片标注的文件拖进来重新处理

8ccd41d6bddf885375e05d00fee202fd.jpeg

5.处理完后在输出目录又会多两个文件,再次进行VR-DeEcho-Aggressive处理。将后缀是flac_main_vocal.flac拖到文件选择框,下图已经标注,选择VR-DeEcho-Aggressive处理,导出文件格式 现在需要更改一下,不然等下难得找到,这里选择wav,不再是之前的flac格式

4ceb5c5d007aaee62e645f81c70afe65.jpeg

7a73e85c5eefa08290fb97681dd09ad3.jpeg

3f58f7a0f1c19f031187e6f6d48ea437.jpeg

最后得到的这个文件,就是我们要使用的比较纯净的人声音频文件

8909fd84ecae14cc5a75c736fda42112.jpeg

UVR5处理有点复杂,还是建议使用步骤①

二、语音切分

1.U回到之前的界面,也就是 http://localhost:9874/,勾选掉之前的UVR5处理,节省点显存

2bff6f0c689f923dad8897671b49f209.jpeg

2.输入之前的音频文件目录,修改切分后的根目录,建议加入子目录。

cdd9c4e68ba14f051fdf7697dfa4e971.jpeg

比如我在slicer_opt后面加入damimi子目录

5dbe8c579992cf1698413fd2205b7be4.jpeg

这里的其他参数基本可以不做修改,点击 开始语音切割,在设置好的输出目录就可以看到切分好的音频文件。

38e5db69d93a603800346e6bbb3fe44c.jpeg

三、语音打标
打标就是给每个音频配上文字,这样才能让AI学习到每个字该怎么读。这里的标指的是标注

1.先对声音进行识别,生成对印的文本内容。

9d15b7c170a98f4f70bed3a1cc709951.jpeg

这里的 输入文件夹路径 需要修改成第二步中的语音分段路径,你的要填入你对应的全路径。ASR模型,是中文就选择中文,是其他语言选择Whisper多语种即可。

92de0a721f39f5b66f9281d6679d7b6f.jpeg

点击开启离线批量ASR,可以在cmd查看进度信息。

740e6c34e229f0b48ab38f75c8cc3437.jpeg

显示任务完成,就可以在输出目录 output/asr_opt/ 看到 damimi.list文件

4bf3961dae2a7e4e33436e87f4b1986c.jpeg

可以打开浏览,发现都是音频文件对应的文本内容。

12cd216fcca4e4c016a98ad9bbf2fe86.jpeg

2.打标注(如果你想快速体验效果,不追求质量,也可以直接跳过)

e6083af450efb0fd19b9dfd75fc7e607.jpeg

这里一般会自动喂饭,不用输入list标注文件路径,没有就自己输入,点击 勾选 是否开启打标WebUI,稍等几秒会弹出一个新的网页。有的时候会抽风,关掉cmd,重新输入list标注文件地址,重新勾选勾选是否开启打标WebUI,等待网页打开即可。

cf6997788fc963e11898fa5b60da2977.jpeg

对于上图的英文翻译,从左到右

跳转页码(Change Index)、保存修改(Submit Text)、合并音频(Merge Audio)、删除音频(Delete Audio)、上一页(Previous Index)、下一页(Next Index)、分割音频(Split Audio)、保存文件(Save File)、反向选择(Invert Selection)。

3.校对标注

这个页面看起来按钮比较多,但是常用的也就那几个。我们需要检查Text文本和音频内容是否相同,如果有错误的地方,就需要人工修改。部分音频太短的,没有参考价值可以直接删除。不建议使用合并功能,有bug。。。

5f9c8d551d55670dbccaf69e4e030772.jpeg

下面举例如何合并

407c8407d85623ddc657c988d1e44582.jpeg

8186fba1a1661b3d89d19a9dca6ec6b6.jpeg

按照上图顺序就可以合并音频。

假设现在你已经完成了校对标注,点击 Save File保存标注文件。回到之前的界面,将打标注界面关掉,节省显存,当然显存大也可以不管

4fd8d2963ee529b2c91d80b3b9a8acfe.jpeg

四、训练数据集格式化

切换到分栏 1.GPT-SoVITS-TTS进行训练模型

b1c3e981870b2093754f32fb757c4dca.jpeg

按照上述步骤操作设置,设置完毕,滑动到网页最底部,点击 开启一键三连

0dca242909971bd194b8aba168800021.jpeg

查看cmd进程,软件本身有一些bug,有时可能会卡主不动。

e7e815426283e291cc08a48579fdef30.jpeg

比如我这里cmd长时间停止在这个界面,肯定是不对的,关闭cmd窗口,按照上文说的重新启动go-webui.bat,再次进入这一步即可。

类似这种输出代表执行成功

d39df1ea84183404d2badce1ad220483.jpeg

也可以到logs目录中,成功执行里面有三个文件夹和两个文件,三个文件夹里面有文件基本代表执行成功,如下图标注所示

938493013c557ea2ece4fe789da3c507.jpeg

如果重试依然执行失败,请更换声音素材重新尝试

五、训练模型

1.开启SoVITS训练

依然是在分栏 1.GPT-SoVITS-TTS进行处理,他下面还有个微调训练,也就是叫做训练模型。

c09462683c51750288e5a0b63abebf92.jpeg

图上所示参数基本可以默认。除了batch_size和总训练轮数简单设置一下
batch_size:6g设置1   8g设置2    12设置5  16g设置8   22g设置12    24设置14
这个当然要看你显卡体质,你可以观察任务管理器,跑满了就降低一点,剩余多,就停止掉训练调高一点,这里没有什么是固定的说法。
总训练轮数:长一点的音频素材可以设置15,短一点的推荐默认的8即可。
先开启SoVITS训练,完成后再 开启GPT训练,这里我们点击开始SoVITS训练
ef358f894820994caad1cbe59ffb607d.jpeg

查看cmd非常必要,我执行时,cmd界面又卡住,一样的,关掉cmd窗口,重启软件,界面这样才是正常的,软件本身有一堆bug

d4255967683f45e10f12d778ca691b3c.jpeg

正常执行界面,也可以切出任务管理器,查看GPU显存占用有没有波动,cmd没有输出,GPU显存一定时间没有波动,那就是要重新启动了,因为程序卡主了。

a08a085f5716cfaee737f5d6973e8f4a.jpeg

cmd输出窗口可以看到执行的批次,划线处

012fcc9c1487d812fa4d6513fdc377c5.jpeg

我设置的批次是8,完成后的cmd窗口输出和软件界面提示一并放出。

f0a62b81701dcc3c75712446af6e2c72.jpeg

4beb1363c238f84bfc9dc9acbd60fdf2.jpeg

我的声音素材时长大概3分钟,可以重新调整总训练轮数为15重新训练。具体看你要求,一般总训练轮数15基本已经满足使用了。

2.开启GPT训练

2218f7e2a082769ee819c9c0b51edc56.jpeg

batch_size和总训练轮数和1中所述的一样设置即可,开始GPT训练

点击后cmd一段时间没输出就关掉重开,不得不说bug是真多

正常界面应该是这样的

9cee1c8a7d04e847393386b801571930.jpeg

处理完成的界面显示

adc04c9ecfda99d74ea56916bc57be48.jpeg

SoVITS 和 GPT训练都完成后,就可以在模型目录查看到这两个模型

5948c8b674c7a031db219699632576ad.jpeg

0d9434b9ed1e438e23746073bf09abb0.jpeg

a95a9cee167a52acac5fc9ac3f2160d6.jpeg

你训练好的模型也可以发送给别人,别人复制到相同目录下,就可以实现根据模型克隆语音。

六、克隆声音

这也是最后一个环节了,用之前训练好的模型克隆声音。

先切换分栏到推理界面,然后点击刷新模型

2f4e56cd8f4aedb1d4fb73f9230a7fbb.jpeg

在GPT模型列表和SoVITS模型列表选择之前训练的模型即可,一般选择训练轮数最大的,和步数最多的,e代表轮数,s代表步数

62593abe9e4290a56a96c6f32c84357c.jpeg

b9540d628c0782809ad48448dbe75ac0.jpeg

再勾选下面箭头指向处,会自动打开新的网页

8aead53f4972a2dc7bfde05c383d307c.jpeg

b7692caba0ae8538be46d6fa79c4e431.jpeg

可以在之前的音频切分找到需要使用的素材

779be381820954ca4362dab596b32e77.jpeg

拖拽进去

486aed2ebd303cee942effe6e42557ce.jpeg

找到之前的打标文件,找到对应的文本复制

cb7796257856ce61a8bc2b66f7e19fe6.jpeg

c388e73b3d4732c5ec7cf39d000519c9.jpeg

如下图按照顺序,在序号③中填入你想要让他说的话,第④个序号中,怎么切一般选择按中文句号切

0c1654d75089bd1ab0785adc7345fdeb.jpeg

e7a2a3b305df6809af51aca178f09ab2.jpeg

最后点击合成语音即可

eba46777d318230c5a2b673ddd8caf0a.jpeg

好的,教程到此结束,谢谢大家的观看,有问题可以通过公众好加入星球联系提供支持。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值