GPT-SoVITS V2：深度定制你的专属语音 - 你得不到她，但你可以拥有她的声音

最新推荐文章于 2024-08-26 12:49:33 发布

Zhikes

最新推荐文章于 2024-08-26 12:49:33 发布

阅读量1.2k

点赞数 17

文章标签： ai

本文链接：https://blog.csdn.net/m0_72580657/article/details/141428194

版权

新版本的GPT-SoVITS V2，带来了声音克隆技术的全新突破，无论是游戏角色还是现实明星，都能轻松实现声音定制。

游戏角色声音克隆

直面天命，最近黑神话悟空刷爆了各大平台，何不试试用GPT-SoVITS克隆悟空的声音？只需几步，你就能重现《大话西游》里那些令人难忘的经典台词！

[https://www.zhisk.com/wp-content/uploads/2024/08/heishenghua.mp3 播放MP3]

现实明星声音克隆
想象一下，每天早上都是你最喜欢的明星叫你起床。你准备好体验了吗？先来听听我的闹钟吧。

[https://www.zhisk.com/wp-content/uploads/2024/08/damimi.mp3 播放MP3]

听出来是谁在叫我起床了吗？没错，有了GPT-SoVITS V2，这一切都变得触手可及！只需提供一段简单的音频样本，再输入你想要她说的话，你也能拥有独一无二的声音体验。

心里是不是已经有了很多有趣的点子？赶快试试GPT-SoVITS V2，让你的创意变成现实吧！

GPT-SoVITS V2模型新特点（v2模型新特点）

（1）SoVITS：对低音质参考音频（尤其是来源于网络的高频严重缺失、听着很闷的音频）合成出来音质更好

SoVITS：提高了低质量参考音频（尤其是来自互联网的高频损失严重、声音低沉的音频）的合成质量。

（2）加大训练集到5k小时，零射击性能更好的音色基础

增加训练数据集：扩充至5k小时，增强零样本性能，使音色更加相似。

（3）增加2个语种，现在可训练5个语种之间相互跨语种合成（跨语种合成，指集、参考音频语种和需要合成的语种不同）

增加两种语言：现在支持五种语言之间的跨语言合成（跨语言合成意味着训练数据集、参考音频语言和要合成的语言都可以不同）。

（4）更好的文本前端：持续迭代更新。v2中英文加入了多音字优化。

改进的文本前端：持续更新。对于 v2，中文和英文已针对多音字符进行了优化。

获取指南：

一键整合包获取：关注公众好 InnoTechX，发送 “gsv” 获取。
一键启动，不用配置复杂环境。
下载不用开会员、取决你的网速

前置条件：

适用于 Windows 用户（Windows 10 及以上版本），英伟达显卡6G及以上。

使用步骤：

下载解压包并解压到本地目录。
进入目录后，点击 go-webui.bat 即可启动程序。

注意：程序运行期间，请勿关闭 cmd 命令窗口。

TTS 推理一条龙：

一、音频处理（音频有背景音乐的需要处理，如果是干声直接跳过看第二步）

首先要处理音频，保证音频只有人声。有两种方式，使用次数少直接使用第一种方式

①使用在线网站处理 https://vocalremover.org/zh/

在去人声界面选择音频文件上传

等待处理结束后，将音乐拉低，人声拉到最高，保存下载人声，即可进行第二步，无需再使用UVR5处理。这样直接获取比较纯净的人声

②使用GPT-SoVITS自带UVR5处理。（比较麻烦，如果使用次数少直接使用第一种方式）

1.点击 go-webui.bat 启动程序后，会有网页弹出

2.点击是否开启UVR5-WebUI，稍等查看cmd输出，没有报错，便会自动打开UVR5-WebUI网页

如果cmd窗口没有报错，但是浏览器没有弹出跳转，自己手动输入http://localhost:9873/ 到浏览器跳转

3.将自己准备好的音频文件的路径输入到路径输入框，或者直接拖拽到选择框

选择HP2_all_vocals处理，点击转换，等待处理完成

4.处理完后在输出目录会多两个文件，再次进行onnx_dereverb处理。将vocal开头的文件拖到文件选择框，选择onnx_dereverb处理

处理过程中，可能会卡住，比如我使用时在33%进度卡主，需要关掉cmd命令窗口，重新按之前步骤打开UVR5，继续把上面图片标注的文件拖进来重新处理

5.处理完后在输出目录又会多两个文件，再次进行VR-DeEcho-Aggressive处理。将后缀是flac_main_vocal.flac拖到文件选择框，下图已经标注，选择VR-DeEcho-Aggressive处理，导出文件格式现在需要更改一下，不然等下难得找到，这里选择wav，不再是之前的flac格式

最后得到的这个文件，就是我们要使用的比较纯净的人声音频文件

UVR5处理有点复杂，还是建议使用步骤①

二、语音切分

1.U回到之前的界面，也就是 http://localhost:9874/，勾选掉之前的UVR5处理，节省点显存

2.输入之前的音频文件目录，修改切分后的根目录，建议加入子目录。

比如我在slicer_opt后面加入damimi子目录

这里的其他参数基本可以不做修改，点击开始语音切割，在设置好的输出目录就可以看到切分好的音频文件。

三、语音打标

打标就是给每个音频配上文字，这样才能让AI学习到每个字该怎么读。这里的标指的是标注

1.先对声音进行识别，生成对印的文本内容。

这里的输入文件夹路径需要修改成第二步中的语音分段路径，你的要填入你对应的全路径。ASR模型，是中文就选择中文，是其他语言选择Whisper多语种即可。

点击开启离线批量ASR，可以在cmd查看进度信息。

显示任务完成，就可以在输出目录 output/asr_opt/ 看到 damimi.list文件

可以打开浏览，发现都是音频文件对应的文本内容。

2.打标注（如果你想快速体验效果，不追求质量，也可以直接跳过）

这里一般会自动喂饭，不用输入list标注文件路径，没有就自己输入，点击勾选是否开启打标WebUI，稍等几秒会弹出一个新的网页。有的时候会抽风，关掉cmd，重新输入list标注文件地址，重新勾选勾选是否开启打标WebUI，等待网页打开即可。

对于上图的英文翻译，从左到右

跳转页码(Change Index)、保存修改(Submit Text)、合并音频(Merge Audio)、删除音频(Delete Audio)、上一页(Previous Index)、下一页(Next Index)、分割音频(Split Audio)、保存文件(Save File)、反向选择(Invert Selection)。

3.校对标注

这个页面看起来按钮比较多，但是常用的也就那几个。我们需要检查Text文本和音频内容是否相同，如果有错误的地方，就需要人工修改。部分音频太短的，没有参考价值可以直接删除。不建议使用合并功能，有bug。。。