声音克隆教程-GPT-SoVITS

GPT-SoVITS 是目前市面上最好的语音克隆工具,且开源,虽然用到的所有技术不是最新的,但它开创性的加入了 GPT 模型的机制,并以参考语音作为提示,非常好的解决了语音克隆的声音泄漏问题,生成的语音无论在音质还是真实度上,综合表现都非常不错,也可根据提示语音直接克隆, 就是不需要训练模型,目前支持中、英、日三种语言特征:

  • 零样本 TTS:输入 5 秒语音样本并体验即时文本到语音转换。

  • Few-shot TTS:仅用 1 分钟的训练数据即可微调模型,以提高语音相似度和真实感。

  • 跨语言支持:用与训练数据集不同的语言进行推理,目前支持英语、日语和中文。

  • WebUI 工具:集成工具包括语音伴奏分离、自动训练集分割、中文 ASR 和文本标注,帮助初学者创建训练数据集和 GPT/SoVITS 模型。

我们可以克隆自己的声音,减少后续的制作成本,也能克隆一些影视剧角色声音,增加视频的趣味性以及观看性,由于我这台电脑的显卡限制,我导入训练的素材只有四十秒,所以语音的还原度不是很高,但是我看了很多其他博主的测试,如果是原声情况下,自己的声音还原度基本可以以假乱真。

最重要的是,它可以在本地运行,一键部署,在声音训练上面非常简单,几乎可以说是傻瓜式操作,虽然它也有一些弊端和缺点,但是无疑在目前市面上,免费开源能做到这个程度的还是屈指可数!

配置要求

1、Windows系统

需Windows 10/11 系统

支持 CUDA 的 nVIDIA 显卡,每张拥有至少 6G 以上显存

常见的不能使用的显卡:10系以前的所有卡、1060以下,1660以下,2060以下、3050 4G

2、MAC系统

搭载Apple芯片(M系列芯片)或AMD GPU的Mac(如2019款Mac Pro)

macOS 12.3或更高版本

已通过运行xcode-select --install安装Xcode command-line tools


一、下载整合包

打开网址,下载整合包,解压即可用。

网址:https://github.com/RVC-Boss/GPT-SoVITS

下滑到这个选项即可下载:

文件大小有 4.3GB,下载好后解压即可,解压后双击这个文件即可运行:

不要关闭运营窗口,保持这个窗口一直运行,你也可以在窗口看到运行的指令以及执行细节:

浏览器会自动跳出如下界面,运行界面如下所示:

如果你按上面操作无法打开网页界面,那么就是与本地环境冲突,可以尝试手动安装或查看官方的相关文档。

中文教程文档:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

二、 声音素材处理

这个环节主要包括声音和背景伴奏声的分离声音的切片以及声音的标注。

对于声音的剥离他也有对应的工具可以勾选,如果是干声没有背景音乐那么提取处理的效果肯定最好,其次声音切片是将我们上传的素材声音切片成 10 秒左右的短声音片段,然后将我们的声音进行文字识别,最后是完成声音的标注,整体的思路如下:

正式步骤:首先:点击第一个开启是否开启 UVR5-WebUI进入如下界面,因为只支持音频格式,如果是视频,可以先到剪映里面导出音频文件再导入:

点击转换,等待几分钟或者十几分钟。我们在输出文件夹里面查看这两个文件,一个是背景音乐,一个声音原声:

如果分离出来的声音还是不够清晰,我们再导入,选择第四个为去混响模型,第五个是去延时模型:

最后我们在输出目录里面复制最终的声音文件,名字改短一点。

注意:为避免报错,所有文件名不要包含中文。其次:在语音切割这里,将文件名修改为上述音频的文件夹位置,其他切割的数据都选择默认数值,然后点击“开启语音切割”、“开启离线批量 ASR”

在运行窗口也可以实时看到运行的状况:

最终可以看到一些结束的标志,最后在勾选“开启打标 WebUI”的工具,注意文件名称也要更改为

分别点击“开启语音切割”“开启离线批量 ASR”以及勾选“开启打标 WebUI”的工具:

等待几分钟即可打开新窗口:

这个窗口实际就是调整每个语段,如果你的输入音频很大,有十几分钟,切割之后可以做一些合并,操作也很简单,选中片段然后点击 Merge Audio,所有调整完之后点击 Save File

接下来进入 GPT-SoVITS-TTS 界面,因为我这台电脑的显卡很一般,所以训练素材选择得很短,且所有的参数调整都是默认,后期你可根据自身的情况,适当改变一些参数,调成生成效果:

点击微调训练,同理,不熟悉参数的情况下选择默认,然后点击开始训练

最后用训练好的模型克隆声音,点击推理,并刷新模型

模型选择下,下拉,选择数值最大的,并勾选下方的是否开启 TTS 推理 WebUI,等待一会儿即可进入新窗口:

完成

温馨提示:最后生成的语音可直接下载,训练模型期间可能会出现各种报错,记得查看运行窗口,它会记录每一次的运行过程和结果。

  • 24
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
基于中文文本情绪分析自动切换参考音频的 GPT-SoVITS 推理 GPT, 通常指的是“Generative Pre-trained Transformer”(生成式预训练转换器),是一个在自然语言处理(NLP)领域非常流行的深度学习模型架构。GPT模型由OpenAI公司开发,并在多个NLP任务上取得了显著的性能提升。 GPT模型的核心是一个多层Transformer解码器结构,它通过在海量的文本数据上进行预训练来学习语言的规律。这种预训练方式使得GPT模型能够捕捉到丰富的上下文信息,并生成流畅、自然的文本。 GPT模型的训练过程可以分为两个阶段: 预训练阶段:在这个阶段,模型会接触到大量的文本数据,并通过无监督学习的方式学习语言的结构和规律。具体来说,模型会尝试预测文本序列中的下一个词或短语,从而学习到语言的语法、语义和上下文信息。 微调阶段(也称为下游任务训练):在预训练完成后,模型会被应用到具体的NLP任务中,如文本分类、机器翻译、问答系统等。在这个阶段,模型会使用有标签的数据进行微调,以适应特定任务的需求。通过微调,模型能够学习到与任务相关的特定知识,并进一步提高在该任务上的性能。 GPT模型的优势在于其强大的生成能力和对上下文信息的捕捉能力。这使得GPT模型在自然语言生成、文本摘要、对话系统等领域具有广泛的应用前景。同时,GPT模型也面临一些挑战,如计算资源消耗大、训练时间长等问题。为了解决这些问题,研究人员不断提出新的优化方法和扩展模型架构,如GPT-2、GPT-3等,以进一步提高模型的性能和效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

月流霜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值