项目地址:https://github.com/DLW3D/GPT-SoVITS
该项目基于 RVC-Boss/GPT-SoVITS-WebUI
前言
GPT-SoVITS-WebUI 实现了使用WebUI的简易小样本语音模拟和文本转语音所需的完整流程,包括数据清洗、文本标注、模型微调、文本转语音。
该项目是对 GPT-SoVITS-WebU 中文本转语音功能的一个封装,提供了一个命令行程序,实现了实时输入文本播放语音的高效交互。
介绍
该项目提供一个命令行交互程序,实现如下功能:
- 在命令行中直接输入文本并点击回车,将在后台开启一个线程基于配置文件中指定的模型将该文本转为语音,转换完成后立即在指定的音频输出设备播放。
- 文本转语音和语音播放将使用后台线程进行,在这过程中可以输入下一条文本。
- 可以随时切换不同的模型。
- 可以随时切换不同的音频输出设备。
- 在命令行中输入
[配置序号]:
切换配置。配置文件中可包含多个配置,每个配置可以指定不同的声音模型和播放设备。- 配置文件支持热重载
- 在命令行中输入
单字指令
可控制语音播放,如选择上一句、选择下一句、暂停、继续、重播等。
项目配置
-
下载项目文件
-
在windows下按照
GPT-SoVITS-WebUI
官方文档进行配置,确保通过官方测试用例。 -
在你使用的python环境中安装 pyaudio 库
pip install pyaudio
-
编辑模型配置文件
cmd/model.yaml
,指定使用中可切换的模型、参考音频以及声音输出设备。0: name: 默认配置1 device: sovits_path: GPT_SoVITS/pretrained_m