GPT-SoVITS V3模型推理代码，支持API调用，支持流式，支持各种音频格式

最新推荐文章于 2025-03-09 22:49:25 发布

宋铭渊

最新推荐文章于 2025-03-09 22:49:25 发布

阅读量2k

点赞数 22

文章标签： gpt python

本文链接：https://blog.csdn.net/2401_88223409/article/details/145737259

版权

GPT-SoVITS V3模型推理代码，支持API调用，支持流式，支持各种音频格式

1.原项目介绍

GPT-SoVITS 是一款开源的语音合成与克隆工具，结合了 GPT 的生成能力和 SoVITS 的变声技术。能够通过极少量的语音样本（如 5 秒）实现高质量的文本到语音转换。
它支持少样本语音合成，并具备跨语言能力，支持多种语言（如中文、粤语、英语、日语等）。此外，GPT-SoVITS 提供了友好的 WebUI 工具，方便用户进行语音克隆和音频处理。
👉️ BiliBili视频演示

2.本项目介绍

因为GPT-SoVITS最近发布了最新的v3模型，大幅增加zero shot相似度；情绪表达、微调性能提升。
实际体验下来确实比v2模型的音色要强，在跨语种能力上也有进步。
而取得这样的成果必然少不了原开发者的黑科技，v3的推理过程和v1与v2区别很大，总体来说变得复杂了（俺也不懂行），~~原代码呈几何式暴乱！~~