声音的克隆：GPT-SoVITS

数据叨叨叨

已于 2024-05-20 19:39:07 修改

阅读量1.3k

点赞数 30

文章标签： gpt 人工智能

于 2024-05-13 09:45:51 首次发布

本文链接：https://blog.csdn.net/dataddd/article/details/137874941

版权

一、源码：

GitHub - RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)1 min voice data can also be used to train a good TTS model! (few shot voice cloning) - RVC-Boss/GPT-SoVITShttps://github.com/RVC-Boss/GPT-SoVITS

下载必要的使用的包

注意：GPT-SoVITS支持的语言：中英日

二、制作数据集：

音频文件可以B站下载视频，用剪影分离音频，对音频进行单独保存

B站视频下载地址:

https://bilibili.iiilab.com/

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

数据叨叨叨

关注关注

30
点赞
踩
33

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

GPT-SoVITS 快速声音克隆使用案例：webui、api接口

weixin_42357472的博客

02-23

2658

参考： https://github.com/RVC-Boss/GPT-SoVITS环境： Python 3.10 PyTorch 2.1.2, CUDA 12.0 安装包： 1）下载项目 2）下载预训练模型 https://huggingface.co/lj1995/GPT-SoVITS 下载模型文件放到GPT-SoVITS/GPT-SoVITS/pretrained_models/ 下 3）项目GPT-SoVITS文件下运行进入这页面点击开启tts推理ui，后台会新启动一个页面9872的端口页面9

基于GPT-SoVITS的API实现批量克隆声音

Mr数据杨

08-20

1592

目标是将每一段声音通过GPT-SoVITS的API的API进行克隆，因为拼在一起的整个片段处理会造成内存或者缓存溢出。将目录下的音频文件生成到指定目录下，然后再进行拼接。通过AI工具箱生成的数据文件是这样的结构，目录下是没个片段生成的部分，是剪切无声片段的音频文件，这里克隆后会拼接生成一个。然后移动到指定的目录下。是正常拼接的音频文件，

参与评论您还未登录，请先登录后发表或查看评论

使用 GPT-SoVITS 克隆声音，很详细

studio_1的博客

02-15

7021

最近对文本转语言很感兴趣，但对直接在网站上生成的音频音色却不是很满意，经过不断地寻找，就看中了“GPT-SoVITS” ，对想要的音色进行克隆。

GPT-SoVITS本地部署：低成本实现语音克隆远程生成音频全流程实战

03-24

8173

今天要给大家安利一个绝对能让你大呼过瘾的声音黑科技——GPT-SoVITS！这款由花儿不哭大佬精心打造的语音克隆神器，已经在GitHub上收获了超过35K颗星星，简直是声音界的扛把子。你可能会想：这玩意儿难用吗？完全不会！GPT-SoVITS V2版不仅支持中、日、英、韩、粤五种语言，还加入了语速调节和无参考文本模式等实用功能。更让人兴奋的是，它为Windows用户准备了超简单的整合包，下载解压就能直接上手。但是，如果你只有一台性能强劲的电脑，并且希望在外出时也能随时随地使用这款神器怎么办？别担心！

一分钟教你使用GPT-SoVITS-克隆你的声音-效果十分逼真-全干货教程

php源码

08-07

5901

最后我们在下方填入list的文件路径，点击下方开启语音文本校对标注工具，开始打标此操作也会启动一个新的界面3.音频打标进入如下界面后即可进行打标，左侧为自动生成的文字，中间为原音频，我们需要根据音频实际去修改左侧文字，看看是否有错误，错误一般为文字错误，标点错误，断句错误等，修改好后点击第二个Submit Test提交即可本页检查完，如果有第二页，则点击右上角Next跳转下一页进行打标，需要删除音频则勾选yes，然后点击顶部的Delete Audio进行删除。随后找到最底下的一键三连！

声音克隆：fish-speech 推理、requests访问接口案例

weixin_42357472的博客

07-05

1969

参考： https://hub.docker.com/r/lengyue233/fish-speech https://speech.fish.audio/inference/#http-api下载模型：下载的内容有->一般是符号链接，实际保存路径在符号链接后面路径下，如果需要把他复制过来会其他地方吗，可以下载镜像：需要GPU环境：进入容器后还需要运行api服务：默认音色，女生，推理时间有点长相对，需要10s；声音整体质量很不错

Unity--GPT-SoVITS接入、处理GPTAPI的SSE响应流

red_redemption的博客

03-16

1077

GPT-SoVITS- v2（v3也可以，两者对模型文件具有兼容）点击后会进入新的游览器网页-----看了一圈，发现主要问题集中在模型的训练很需要CPU，也就是模型的制作上，问题很多，如果有现有的模型，直接引用，使用“推理”即可就比如用这个up主练出来的模型自己要做的其实就很少了导入之后重启webui.bat再开启TTS推理WebUI，就进入了UI界面，自己点击交互设置，然后产出结果可以直接用。

GPT-SoVITS-WebUI 声音克隆，强大的少样本语音转换与语音合成Web用户界面，支持中英日语

01-22

功能： 1、零样本文本到语音（TTS）：输入5秒的声音样本，即刻体验文本.../4、WebUI工具：集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和GPT/SoVITS模型。

开源TTS语音克隆神器GPT-SoVITS_V2版本地整合包部署与远程使用生成音频

私聊前往站内信：https://i.csdn.net/#/msg/chat/weixin_44976692

11-11

2万+

本文主要介绍如何在Windows系统电脑使用整合包一键部署开源TTS语音克隆神器GPT-SoVITS，并结合cpolar内网穿透工具轻松实现远程访问，训练声音模型与生成音频。无需公网IP，也不要准备域名和服务器。随着AI配音技术不断迭代，我们现在在视频平台经常能看到使用各种名人或是明星的声音，通过AI制作后达到以假乱真效果的各种搞笑视频或是音乐作品等娱乐内容。这个技术的原理是通过数据训练后，使用强大的少样本语音转换与语音合成方式来达到语音克隆的目的。而在这些开源TTS语音克隆项目中，由花儿不哭。

“声”临其境，一键克隆：第二代GPT-SoVITS 让你的声音自由飞翔

2401_86055303的博客

09-20

2212

第二代GPT-SoVITS声音克隆工具，支持中英日韩粤等多种语言的声音合成，仅需一分钟的音频样本即可训练出高质量的语音模型，中英粤等多种语种语音合成，效果炸裂。

第二代 GPT-SoVITS V2：解锁语音克隆与合成的无限可能

lin_xuezhang的博客

10-22

1805

F5 AI社区是一个紧跟全球AI技术和AI产品，秉承“有教程就会有工具”的运营理念，及时为用户整合、提供各类AI工具教程的社区，不管你是0基础学员还是有基础，F5 AI社区从提供本地离线AI工具整合包开始，让您无限量不限时使用，更有全套在线教程助您无忧学完快速上手，同时社区的AI专家24小时在线，为您解答各种技术疑难问题，助您真正0门槛，0成本，即使是从未接触过的技术小白也能快速无脑掌握前沿的AI技能。在语音合成过程中，能够更加精准地识别和处理多音字，使合成的语音更加自然流畅，符合人类的语言习惯。

只需1分钟就能完美克隆声音，完美复刻任何语音、语调、语气！这款克隆工具远超之前所有克隆工具效果

baidu_23065271的博客

01-30

699

高粱seo觉得实际上是因为现在短视频平台不断更新升级判断各种算法，会存在各种误判的情况，所以当大家的作品确实没有存在违规情况下，仍然被判断违规的话，可以认真的反馈下，应该还是可以通过审核恢复的，但是如果本身是违规的，那就没必要申请了，因为不可能给你恢复的。好了，以上就是高粱seo分享的一些做短视频心得体会，反正就是大家在往后做短视频过程中，尽量避免违规，现在账号也是非常珍贵的，一个身份才能注册一个账号，所以要谨慎，能做原创，尽量原创，不会原创就用ai搞。就这样提交了，然后安然的睡觉去了。

文字转语音TTS工具，开源可本地或云端部署：GPT-SoVITS

诸神缄默不语的博客

04-15

4899

本文介绍文字转语音工具：GPT-SoVITS

【GPT-SOVITS-01】源码梳理

Fred's Note

03-17

4388

GPT-SOVTIS源码解析

GPT-SoVITS 本地化部署及使用 [详细教程]

Polo_fang的博客

07-18

2万+

作者b站演示视频：耗时两个月自主研发的低成本AI音色克隆软件，免费送给大家！【GPT-SoVITS】_哔哩哔哩_bilibili关注UP主并私信GPT/gpt/sovits/SOVITS/SoVITS/SVC/svc自动获取整合训练包下载链接文案配音：AI孙笑川（GPT-SoVITS）算法相关经验和成果是我和Rcell经过半年时间踩了上百个坑得出的当前的最优解，如果对大家有用的话，希望能够一键三连支持一下。收费的均不是本人。RVC官方唯一账号。

探索未来科技：GPT-SoVITS - 智能语音与视觉交互系统

gitblog_00065的博客

03-19

947

探索未来科技：GPT-SoVITS - 智能语音与视觉交互系统项目地址:https://gitcode.com/gh_mirrors/gp/GPT-SoVITS 在人工智能领域，融合了语音识别和计算机视觉技术的交互系统正逐渐成为创新前沿。是一个开源项目，旨在构建这样一个智能、高效的跨模态对话平台，为开发者提供了一个探索和应用这些先进技术的宝贵资源。项目概述 GPT-SoVITS 基于谷歌的 ...

【超详细教程】GPT-SoVITs从零开始训练声音克隆教程（主要以云端AutoDL部署为例）

热门推荐

李同学Lino的博客

01-29

5万+

近日，RVC变声器的创始人（GitHub昵称为RVC-Boss）与AI音色转换技术专家Rcell合作，共同开发并开源了一款创新的跨语言音色克隆工具——GPT-SoVITS。这个项目在互联网上迅速获得了广泛关注和好评，众多业界大佬和知名博主都对其给予了推荐。自项目上线以来，短短两天内，它在GitHub上的Star数就达到了1.4k，而现在这个数字已经飙升至6.5k。GPT-SoVITS的开发历时半年，期间RVC-Boss和Rcell面临了诸多挑战。

gpt-sovits（数据准备一）

m0_52023057的博客

03-01

771

1.人声伴奏分离。

GPT-SoVITS 一键整合包- AIStarter启动器专属

weixin_43833874的博客

02-06

1万+

GPT-SoVITS 一键整合包下载地址：更多分流下载地址百度网盘链接：提取码：d7xz。

gpt-sovits声音克隆

02-11

### GPT-SoVITS声音克隆工具概述 GPT-SoVITS是一个用于创建高度逼真语音合成模型的强大工具，能够精确复制特定个体的声音特征[^1]。 ### 安装环境配置为了顺利运行GPT-SoVITS项目，需先搭建合适的开发环境。推荐使用Anaconda来管理Python版本及相关依赖库： ```bash conda create -n sovits python=3.8 conda activate sovits pip install torch==1.9.0 torchaudio===0.9.0 -f https://download.pytorch.org/whl/torch_stable.html pip install -r requirements.txt ``` 上述命令会安装PyTorch以及其它必要的软件包，确保所有组件兼容并正常工作。 ### 数据集准备高质量的数据对于训练效果至关重要。应收集目标人物清晰无背景噪音的音频片段作为样本数据源。每条记录建议长度控制在几秒到十几秒之间，并保持一致的采样率（通常为22kHz）。这些素材将被用来提取声纹特征，进而构建个性化的发声模型。 ### 训练过程简介完成前期准备工作之后就可以启动模型训练流程了。具体操作如下所示： ```python from utils import preprocess_dataset, train_model # 对原始音频文件执行预处理操作 preprocess_dataset('path/to/audio/files') # 开始正式训练阶段 train_model(config='config.json', checkpoint_dir='./checkpoints') ``` 此部分涉及复杂的算法运算，在GPU支持下可以显著加快收敛速度。经过若干轮迭代优化后即可获得初步可用的结果。 ### 测试与应用实例当模型训练完毕并通过验证测试后便能投入实际应用场景当中去了。下面给出一段简单的调用代码供参考： ```python import os from text_to_speech import TTSModel model_path = './checkpoints/best.pth' output_wav = 'generated_audio.wav' tts = TTSModel(model_path=model_path) audio_data = tts.synthesize(text="这是一句测试语句") os.write(output_wav, audio_data) print(f"已成功生成音频文件 {output_wav}") ``` 这段脚本展示了如何加载已经训练好的权重参数并将指定的文字转换成对应的语音输出。