大模型学习-ai声音克隆_GPT-SoVITS的基本使用

Gratitute_林腾

已于 2024-11-27 14:11:21 修改

阅读量2k

点赞数 18

分类专栏：大模型学习文章标签：学习人工智能 gpt

于 2024-11-27 09:10:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74462339/article/details/144065910

版权

大模型学习专栏收录该内容

15 篇文章

订阅专栏

目录

宇宙免责声明

安装包下载

宇宙免责声明

参考b站视频：你的声音，现在是我的了！- 手把手教你用 GPT-SoVITS 克隆声音！_哔哩哔哩_bilibili

做的笔记整理，只做个人记录分享给大家

安装包下载

GPT-SoVITS是github上的一个开源项目，所以需要科学上网。

网址为：GitHub - RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

进入该网址后，下滑，点击：

然后就会开始下载。。。

下载完成后，对它进行解压

解压完成后，双击文件夹：

再双击：

再双击：

然后就会弹出：

耐心等待一会儿，就会自动跳转到页面：

准备音频

准备一段1到2分钟的音频素材，长一点会更好。如果想克隆自己的声音，直接用手机录制即可，录制好后，发给电脑。音频格式设置为wav，可以获得更好的效果

如果有背景音乐等噪音，可以点击UVR5-WebUI处理一下

勾选之后，再耐心等待一下，会自动打开一个新的页面（等待时间可能会有点长）：

把需要处理的音频素材拖进来：

再按照文字提示，选择对应的模型：

注：一个模型只能去除一种噪声，所以有时需要多次处理

选择好模型后，点击转换即可：

转换后的文件默认会保存在output/uvr5_opt目录下，这里可能会存在一些非人声音频，所以建议把每一条都听一遍，然后把不需要的删除。

当然，也可以手动修改路径：

音频处理完后，关闭当前标签页，回到GPT-SoVITS页面，并取消勾选UVR5-WebUI：

切割音频

在下图所指位置输入音频所在文件夹路径：

其余参数保持不变，然后点击开启语言切割：

切割后的音频默认会输出在output/slicer_opt目录下，可以简单听一下，如果单个片段超过20秒，就需要清空音频，调整一下参数，重新切割一次。

打标

打标就是把音频对应的文本内容弄出来。

将切割后的音频所在的路径输入到下图所指位置：

然后点击：

当输出下面的内容，说明打标完成：

打标的结果默认在output/asr_opt目录下：

为了获得更好的效果，我们需要对打标结果进行校正。

复制文件地址：

粘贴到下图所指位置，并勾选打标WebUI：

耐心等待，会自动打开：

在该页面，可以播放音频，对照着左边的文本，看是否有差错，有的话就进行修改。也要注意停顿和标点是否对应，如果有停顿，而文本连贯，则需要手动插入逗号。

改完当前页后，点击Submit Text保存结果，并点击Next Index进入下一页：

!!!注意，进入下一页前，一定要点击Submit Text保存，否则就白做了。

对于特别短或不想要的音频，可以点击yes，然后再点击Delete Audio:

如果想合并音频，可以点击yes，然后点击Merge Audio：

全部完成后，点击Save File，并关闭该页面即可。

然后取消勾选打标WebUI:

训练

切换到1-GPT-SoVITS-TTS:

用英文或数字填写一下名称：

然后输入标注文件的路径和切割好的音频文件的路径：

然后直接点击一键三连：

耐心等待后，当输出下面的内容，说明处理完毕

然后切换到1B-微调训练

参数先全部保持默认，依次进行下面两个模型的训练即可

训练完成时，会有提示：

如果在命令行中看到下图的报错：

说明爆显存了，此时需要降低batch_size值，然后再次尝试，每次可以减4，看看能否正常进行。

训练完成后，就可以在下面两个文件夹中找到训练出来的模型文件（如果没有，说明没成功）：

总训练轮数/保存频率=保存的模型数量：

推理

切换到1C-推理

先点击刷新模型路径：

然后再依次选择自己训练的模型：

e10表示训练了10轮，s120表示训练的步数

然后再勾选TTS推理WebUI:

耐心等待推理页面的开启。。。。

然后拖入一段参考音频，音频不用太长，可以直接用我们已经切割好的音频。然后输入音频对应的文本、选择参考语种：

参考音频对最终合成的效果的影响比较大，如果想要获得平静一点的效果，参考音频也需要平静一点。

然后输入想要的文本，并点击合成语音，就可以得到生成的音频了：

也可以合成英文音频，挺有意思的：

点击三个点，可以将生成的音频下载下来：

临时文件

TEMP文件夹存放着我们使用过的音频，记得定时清理：

还有很多其他功能，待自己摸索了。。。。。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。