GPT-SoVITS是有一款能够克隆你自己音色的文本转音频工具。
项目地址:https://github.com/RVC-Boss/GPT-SoVITS/tree/main
作者提供了多种安装部署方式,非常简单便洁!
本文使用的是windows下面的一键部署。
下面讲解一下工具的具体使用方式。
首先准备一段自己的音频文件,为了保证模型微调的效果,不要过短。
【音频自动切分输入路径,可文件可文件夹】填入音频路径,点击开启语音分割
接下来划到下方【0c-中文批量离线ASR工具】,【输入文件夹路径】填入分割后的文件夹路径(在output/slicer_opt中),点击开启离线批量ASR
完成后点击【0d-语音文本校对标注工具】中的【是否开启打标webui】,在这里可以完成语音识别内容的修正,修正完成后点击【Submit Text】
回到上方菜单栏,点击【1-GPT-SoVITS-TTS】,在【1A-训练集格式化工具】填入【文本标注文件】和【训练集音频文件目录】,点击【一键三连】
依次点击【开启SoVITS训练】和【开启GPT训练】
上方菜单栏点击【1C-推理】,【刷新模型路径】,依次选择训练好的GPT模型和SoVITS模型,点击【是否开启TTS推理WebUI】,稍等一会跳转到新的webui。
接下来,首先上传一段短音频,可以选择前面切片好的音频,然后自己输入该音频对应的文本对照信息,然后就可以在【需要合成的文本】输入我们想要克隆的文本,最后点击【合成语音】,就可以享用了。
后续打算将文本语音互转工具接入到大模型中,再利用heygen的api生成个性化的数字人智能体,实现语音问答。