本地运行 AI 语音克隆工具 GPT-SoVITS,超方便,超真实

文本转语音已经很成熟了,例如剪映的朗读功能。

但这些工具提供的语音风格都是固定,你只能从中选择,如果你想要使用某个喜爱人物的声音,怎么办?

这就需要使用语音克隆,模拟你的目标语音风格。

GPT-SoVITS(github.com/RVC-Boss/GPT-SoVITS) 是一个开源的语音克隆项目,克隆效果很好,已经有 18.8k 的 star。

主要特点:

  • 极其方便,只需提供5秒的语音样本,就可以模仿这个样本的语音风格朗读指定的文本。

  • 可以训练微调,仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。

  • 操作简单,提供了 Web 界面。

下面以 Windows 系统为例,了解一下安装和使用过程。

安装

GPT-SoVITS 为 Windows 系统提供了安装包,下载地址:

https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true

是 7z 压缩格式,需要你先安装好 7zip。

下载之后解压,里面有一个启动文件 go-webui.bat,双击即可启动 GPT-SoVITS 的 Web 操作界面。

使用

上图是启动之后的界面效果,点击导航标签中的 “1-GPT-SoVITS-TTS” 进行文本转语音操作。

进入后,这个页面有一个二级导航标签,点击其中的 “1C-推理” 标签。

进入后,选中 “是否开启TTS推理WebUI” 这一选项。

选中后,耐心等待几秒钟,会自动打开一个新的页面。

这个页面就是真正进行声音克隆和文本转语音的操作界面。

操作非常简单,一共就4步。

第一步,把你准备好的要克隆的语音样本上传上来。

需要注意的是,语音样本一定要在 3~10 秒,不能超过,否则会报错。还有,样本中的人声一定要清晰,不要模糊嘈杂,否则会大大影响克隆效果

第二步,把你要克隆的语音所对应的文本粘贴过来,这样 GPT-SoVITS 就可以校准语音样本的内容了。

第三步,输入你要朗读的文本。

第四步,开始语音合成。

上图是我上传和填写的示例,超级简单,而且合成的效果很好,我认为输出的声音效果能达到样本的 **80%**。

性能

在我的示例中,输出的结果声音为9秒。

运行时间大概为7秒。

运行过程中我看了性能占用情况。

对 CPU 和内存的占用较小,主要是使用显卡,运行期间会有两三秒的峰值,把显卡占满。


GPT-SoVITS 克隆效果不错,安装操作都很简单,运行速度快。

对语音克隆、文本转语音有兴趣的话,推荐试试。

#语音克隆,#AI 人工智能,#GPT-SoVITS,#TTS,#gpt890

信息来源 gpt890.com/article/32

  • 16
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
基于GPT-SoVITS的视频剪辑快捷配音工具 GPT, 通常指的是“Generative Pre-trained Transformer”(生成式预训练转换器),是一个在自然语言处理(NLP)领域非常流行的深度学习模型架构。GPT模型由OpenAI公司开发,并在多个NLP任务上取得了显著的性能提升。 GPT模型的核心是一个多层Transformer解码器结构,它通过在海量的文本数据上进行预训练来学习语言的规律。这种预训练方式使得GPT模型能够捕捉到丰富的上下文信息,并生成流畅、自然的文本。 GPT模型的训练过程可以分为两个阶段: 预训练阶段:在这个阶段,模型会接触到大量的文本数据,并通过无监督学习的方式学习语言的结构和规律。具体来说,模型会尝试预测文本序列中的下一个词或短语,从而学习到语言的语法、语义和上下文信息。 微调阶段(也称为下游任务训练):在预训练完成后,模型会被应用到具体的NLP任务中,如文本分类、机器翻译、问答系统等。在这个阶段,模型会使用有标签的数据进行微调,以适应特定任务的需求。通过微调,模型能够学习到与任务相关的特定知识,并进一步提高在该任务上的性能。 GPT模型的优势在于其强大的生成能力和对上下文信息的捕捉能力。这使得GPT模型在自然语言生成、文本摘要、对话系统等领域具有广泛的应用前景。同时,GPT模型也面临一些挑战,如计算资源消耗大、训练时间长等问题。为了解决这些问题,研究人员不断提出新的优化方法和扩展模型架构,如GPT-2、GPT-3等,以进一步提高模型的性能和效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值