一. 简介
GPT-SoVITS是一个开源的声音克隆软件,旨在通过少量语音微调训练快速克隆人物的音色,或者不训练直接推理,由参考音频的情感、音色、语速控制合成音频的情感、音色、语速。它支持跨语种生成,即参考音频(训练集)和推理文本的语种可以为不同语种。GPT-SoVITS已经发布了V2版本,该版本对低音质参考音频合成出来的音质更好,底膜训练集增加到5k小时,zero shot性能更好,音色更像,所需数据集更少,并增加了韩粤两种语言支持,中日英韩粤5个语种均可跨语种合成。此外,V2版本还加入了多音字优化。
GPT-SoVITS的功能亮点包括:
零次TTS(Zero-Shot Text-to-Speech):用户仅需输入一段5秒的语音样本,GPT-SoVITS-WebUI就能立即将其转换为文本,实现即时的语音到文本转换。
少次TTS(Few-Shot Text-to-Speech):通过对模型进行微调,即使是1分钟的训练数据也能显著提升语音的相似度和真实感,这对个性化语音合成非常关键。
跨语言支持:GPT-SoVITS能够处理与训练数据集不同语言的语音,目前支持英语、日语和中文,大大拓宽了应用范围。
WebUI集成:集成了多种AI工具,包括语音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,方便用户创建训练数据集和GPT/SoVITS模型。
此外,GPT-SoVITS还提供了一个简洁易用的WebUI,使得用户可以轻松部署和操作该模型。它支持在Windows、Linux和macOS系统上运行,提供了详细的部署指南和操作说明,使得用户能够快速上手并利用该技术进行声音克隆和相关应用开发。
本项目的目的是在GPT-SoVITS的基础上,充分高效使用其语音合成功能,并实现单位时间大批量语音的合成,进一步改造封装,使其能够更快速、更高效调用执行合成语音,以及项目部署。