GPT-SoVITS V3模型推理代码,支持API调用,支持流式,支持各种音频格式
1.原项目介绍
GPT-SoVITS 是一款开源的语音合成与克隆工具,结合了 GPT 的生成能力和 SoVITS 的变声技术。能够通过极少量的语音样本(如 5 秒)实现高质量的文本到语音转换。
它支持少样本语音合成,并具备跨语言能力,支持多种语言(如中文、粤语、英语、日语等)。此外,GPT-SoVITS 提供了友好的 WebUI 工具,方便用户进行语音克隆和音频处理。
👉️ BiliBili视频演示
2.本项目介绍
因为GPT-SoVITS最近发布了最新的v3模型,大幅增加zero shot相似度;情绪表达、微调性能提升。
实际体验下来确实比v2模型的音色要强,在跨语种能力上也有进步。
而取得这样的成果必然少不了原开发者的黑科技,v3的推理过程和v1与v2区别很大,总体来说变得复杂了(俺也不懂行),原代码呈几何式暴乱!