GPT-Sovits：语音克隆训练-遇坑解决

最新推荐文章于 2025-04-08 16:20:40 发布

EelBarb

最新推荐文章于 2025-04-08 16:20:40 发布

阅读量1k

点赞数 4

分类专栏： python 人工智能文章标签： gpt 语音识别人工智能

本文链接：https://blog.csdn.net/G541788_/article/details/145701989

版权

前言

本来以为3050完全无法执行GPT-Sovits训练的，但经过实践发现其实是可以，并且仅花费了十数分钟便成功训练和推理验证了自己的语音模型。

官方笔记：GPT-SoVITS指南 · 语雀

项目地址：https://github.com/RVC-Boss/GPT-SoVITS

本人借鉴：丨GPT-SoVITS丨保姆级配置+使用教学

这些笔记比我个人介绍的详细的多，因此这里只给出我遇到的几个问题及解决方案：

1、 pytorch安装问题

2、 RuntimeError: use_libuv was requested but PyTorch was build without libuv...

3、爆显存问题

遇坑解决

pytorch安装问题

见我之前的博客：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

EelBarb

关注关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

GPT-SoVITS: 智能语音合成的新境界

步子哥的博客

07-04

846

GPT-SoVITS作为一个强大的语音合成工具，正在推动语音技术的边界。它不仅为研究人员提供了一个创新的平台，也为普通用户带来了前所未有的语音合成体验。随着技术的不断发展和社区的积极参与，我们有理由相信GPT-SoVITS将在语音合成领域发挥越来越重要的作用，为人工智能的语音交互带来更多可能性。

libwebsockets was not build with libuv support (-DLWS_WITH_LIBUV=ON)

Nicer_feng's blog

01-05

1502

今天在服务器安装一个ttyd玩一下，一路上遇到各种错误，百度也查不到，最终解决了记录一下

参与评论您还未登录，请先登录后发表或查看评论

解决报错 RuntimeError: use_libuv was requested but PyTorch was build without libuv support

ffffflk的博客

09-03

9987

【代码】解决报错 RuntimeError: use_libuv was requested but PyTorch was build without libuv support。

【RVC Project WebUI】安装和使用

Charltin的博客

03-20

498

使用conda，会根据当前的cuda自动下载对应的torch。pip25.0在安装依赖的时候会出现问题，有个依赖找不到。

从0开始深度学习——步态识别代码解读01如何用本地的GPU调试opengait框架？

qq_53536373的博客

12-10

1700

点击确定了以后会出现，如果没有以下的软件包，就点一下软件包旁边那个小绿圈就自动加载出来了，神奇的是python 解释器自动变为了E:\anaconda\envs\mypytorch\python.exe。接下来，将E:\anaconda\envs\mypytorch\Lib\site-packages\torch\distributed这个文件复制到项目目录下。文件——>设置——>项目——>python解释器——>添加解释器——>conda 环境——>需要查看自己的gpu版本步骤——cmd。

RuntimeError: PyTorch was compiled without NumPy support

c57247293408的博客

01-04

1136

解决报错PyTorch was compiled without NumPy support和torch-0.4.1.post2的安装问题

RuntimeError: use_libuv was requested but PyTorch was build without libuv support

最新发布

qq_57532970的博客

04-08

361

在使用torch2.4.x时可能会出现相关问题，可以使用把torch版本降为2.3.x的方法来解决相关问题。在特定条件下可以选择禁用 use_libuv,可以参考以下文章。

GPT-SoVITS-WebUI 声音克隆，强大的少样本语音转换与语音合成Web用户界面，支持中英日语

01-22

功能： 1、零样本文本到语音（TTS）：输入5秒的声音样本，即刻体验文本.../4、WebUI工具：集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和GPT/SoVITS模型。

GPT-SoVits：语音克隆，语音融合

天风的人工智能博客

05-11

1834

输入 5 秒的声音样本，即刻体验文本到语音转换。仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感。支持与训练数据集不同语言的推理，目前支持英语、日语和中文。集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和 GPT/SoVITS 模型。

第二代 GPT-SoVITS V2：解锁语音克隆与合成的无限可能

lin_xuezhang的博客

10-22

1787

F5 AI社区是一个紧跟全球AI技术和AI产品，秉承“有教程就会有工具”的运营理念，及时为用户整合、提供各类AI工具教程的社区，不管你是0基础学员还是有基础，F5 AI社区从提供本地离线AI工具整合包开始，让您无限量不限时使用，更有全套在线教程助您无忧学完快速上手，同时社区的AI专家24小时在线，为您解答各种技术疑难问题，助您真正0门槛，0成本，即使是从未接触过的技术小白也能快速无脑掌握前沿的AI技能。在语音合成过程中，能够更加精准地识别和处理多音字，使合成的语音更加自然流畅，符合人类的语言习惯。

Ollama安装使用与LLamaFactory微调模型（Windows）

JHZ056的博客

08-29

2653

Ollama 是一款开创性的人工智能（AI）和机器学习（ML）工具平台，它极大的简化了AI模型的开发和使用过程，Ollama出现的目的是为了解决AI模型的硬件配置和环境搭建的复杂问题：该工具的主要特点包括：（1）功能丰富，使用直观且高效。（2）对用户比较友好，上手无门槛。（3）推动AI普及，扩展AI能力。此外Ollama还会存在一系列的关键优势，它能自动识别并充分利用Windows系统中最优的硬件资源，可以实现针对性能优化，从而确保AI模型更加高效地运行；

C++部署Pytorch（Libtorch）出现问题、错误汇总

zzz_zzz12138的博客

10-17

3万+

错误汇总1、 error C2440: “初始化”: 无法从“torch::jit::script::Module”转换为“std::shared_ptr” 1、 error C2440: “初始化”: 无法从“torch::jit::script::Module”转换为“std::shared_ptrtorch::jit::script::Module” 如果采用网络上流行的libtorch测试代码： #include <torch/script.h> // One-stop header.

Pytorch_GPU安装

weixin_44903874的博客

12-25

2717

pytorch-gpu版安装过程

PyTorch 常见问题整理

anshiquanshu的专栏

01-12

5556

文章目录 1 Loss 为 NaN 2 正确测试模型运行时间 3 参数初始化 4 获取 torchvision 中某一层的输出 5 修正 The NVIDIA driver on your system is too old 错误 6 修正 Expected more than 1 value per channel when training 错误 7 修正 Can't call numpy() on Variable that requires grad. Use var.detach()

【超详细教程】GPT-SoVITs从零开始训练声音克隆教程（主要以云端AutoDL部署为例）

热门推荐

李同学Lino的博客

01-29

5万+

近日，RVC变声器的创始人（GitHub昵称为RVC-Boss）与AI音色转换技术专家Rcell合作，共同开发并开源了一款创新的跨语言音色克隆工具——GPT-SoVITS。这个项目在互联网上迅速获得了广泛关注和好评，众多业界大佬和知名博主都对其给予了推荐。自项目上线以来，短短两天内，它在GitHub上的Star数就达到了1.4k，而现在这个数字已经飙升至6.5k。GPT-SoVITS的开发历时半年，期间RVC-Boss和Rcell面临了诸多挑战。

Libuv库(探讨)---第二节:异步调度

knowledgebao的博客

08-31

4412

索引目录：https://blog.csdn.net/knowledgebao/article/details/84776754 目录异步调度逻辑 loop相关API loop运行 handle相关：线程通信异步消息异步调度逻辑 libuv是一个高性能事件驱动库，屏蔽了各种操作系统的差异从而提供了统一的API。libuv严格使用异步、事件驱动的编程风格。其核心工作是提供事...

PyTorch was compiled without NumPy support

wangleiwavesharp的专栏

04-30

1206

RuntimeError : PyTorch was compiled without NumPy support pip install torch==0.4.1.post2

python虚拟环境配置若干错误及解决办法

qq_42897796的博客

12-06

6339

研一时跑程序遇到了各种神奇问题,有时候问了别人也是爱莫能助,很是绝望.所以把我的经验分享出来,让大家少走些弯路.

gpt-sovits声音克隆

02-11

### GPT-SoVITS声音克隆工具概述 GPT-SoVITS是一个用于创建高度逼真语音合成模型的强大工具，能够精确复制特定个体的声音特征[^1]。 ### 安装环境配置为了顺利运行GPT-SoVITS项目，需先搭建合适的开发环境。推荐使用Anaconda来管理Python版本及相关依赖库： ```bash conda create -n sovits python=3.8 conda activate sovits pip install torch==1.9.0 torchaudio===0.9.0 -f https://download.pytorch.org/whl/torch_stable.html pip install -r requirements.txt ``` 上述命令会安装PyTorch以及其它必要的软件包，确保所有组件兼容并正常工作。 ### 数据集准备高质量的数据对于训练效果至关重要。应收集目标人物清晰无背景噪音的音频片段作为样本数据源。每条记录建议长度控制在几秒到十几秒之间，并保持一致的采样率（通常为22kHz）。这些素材将被用来提取声纹特征，进而构建个性化的发声模型。 ### 训练过程简介完成前期准备工作之后就可以启动模型训练流程了。具体操作如下所示： ```python from utils import preprocess_dataset, train_model # 对原始音频文件执行预处理操作 preprocess_dataset('path/to/audio/files') # 开始正式训练阶段 train_model(config='config.json', checkpoint_dir='./checkpoints') ``` 此部分涉及复杂的算法运算，在GPU支持下可以显著加快收敛速度。经过若干轮迭代优化后即可获得初步可用的结果。 ### 测试与应用实例当模型训练完毕并通过验证测试后便能投入实际应用场景当中去了。下面给出一段简单的调用代码供参考： ```python import os from text_to_speech import TTSModel model_path = './checkpoints/best.pth' output_wav = 'generated_audio.wav' tts = TTSModel(model_path=model_path) audio_data = tts.synthesize(text="这是一句测试语句") os.write(output_wav, audio_data) print(f"已成功生成音频文件 {output_wav}") ``` 这段脚本展示了如何加载已经训练好的权重参数并将指定的文字转换成对应的语音输出。