【本地音色还原工具】GPT-SoVITS文本转音频

GPT-SoVITS是有一款能够克隆你自己音色的文本转音频工具。
项目地址:https://github.com/RVC-Boss/GPT-SoVITS/tree/main
作者提供了多种安装部署方式,非常简单便洁!

本文使用的是windows下面的一键部署。
下面讲解一下工具的具体使用方式。

首先准备一段自己的音频文件,为了保证模型微调的效果,不要过短。
【音频自动切分输入路径,可文件可文件夹】填入音频路径,点击开启语音分割

接下来划到下方【0c-中文批量离线ASR工具】,【输入文件夹路径】填入分割后的文件夹路径(在output/slicer_opt中),点击开启离线批量ASR

完成后点击【0d-语音文本校对标注工具】中的【是否开启打标webui】,在这里可以完成语音识别内容的修正,修正完成后点击【Submit Text】

回到上方菜单栏,点击【1-GPT-SoVITS-TTS】,在【1A-训练集格式化工具】填入【文本标注文件】和【训练集音频文件目录】,点击【一键三连】

依次点击【开启SoVITS训练】和【开启GPT训练】

上方菜单栏点击【1C-推理】,【刷新模型路径】,依次选择训练好的GPT模型和SoVITS模型,点击【是否开启TTS推理WebUI】,稍等一会跳转到新的webui。

接下来,首先上传一段短音频,可以选择前面切片好的音频,然后自己输入该音频对应的文本对照信息,然后就可以在【需要合成的文本】输入我们想要克隆的文本,最后点击【合成语音】,就可以享用了。

后续打算将文本语音互转工具接入到大模型中,再利用heygen的api生成个性化的数字人智能体,实现语音问答。

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值