逆天!1分钟克隆你的声音?狂揽4.5w颗星星,这个火爆项目你绝不能错过! GPT-SoVITS

逆天!1分钟克隆你的声音?狂揽4.5w颗星星,这个火爆项目你绝不能错过!

原创 GitHubStore GitHubStore 2025年04月22日 10:11 湖北

大家好,我是每日给大家推荐优秀开源项目的小G!

今天必须给大家安利一个炸裂的项目!开源2星期,狂揽4.5w颗星星

你有没有想象过,有一天AI能用你的声音、或者任何你喜欢的声音来讲故事、读文章、甚至唱歌?而且,不是那种需要海量数据、复杂训练的“大工程”, 输入5 秒的声音样本, 即刻体验文本到语音转换,仅短短需 1 分钟的训练数据即可微调模型, 提升声音相似度和真实感?

是不是觉得有点科幻?放在以前,小G我也觉得悬。但现在,真的有大神把它变成了现实!这个项目在GitHub上已经火到不行🔥,无数技术宅、内容创作者为之疯狂。如果你对AI、对声音、对创造充满好奇,那请一定、一定、一定要往下看!错过它,你可能会错过一个“魔法工具”!

今天的主角,就是 GPT-SoVITS !先看下CRV:

GPT-SoVITS 是何方神圣?

简单来说,它是一个结合了 GPT (生成式预训练模型) 的强大语言理解能力和 SoVITS (一种高质量声音转换技术) 优点的“声音魔法盒”。

它主要能干两件大事:

  1. 零样本/少样本 TTS (文本转语音):

     你可以丢给它一段文字,再指定一个你喜欢的参考声音(甚至不需要训练!),它就能模仿那个声音把文字读出来。更厉害的是,你只需要提供 短短1分钟目标声音的干净录音进行微调训练,它就能高度还原这个声音的音色和韵味,效果惊艳!

  2. 跨语言声音转换:

     支持多种语言,比如你用中文输入,选择一个日语的声音模型,它就能用那个日语声音的腔调说出中文来,反之亦然。这可玩性,简直了!

想象一下,用你偶像的声音给你读睡前故事?或者把你自己的声音“移植”到各种有趣的AI应用里?GPT-SoVITS 让这一切触手可及!

手把手教你安装部署 GPT-SoVITS

好啦好啦,知道你已经摩拳擦掌了!想把这个“声音魔法师”请回家,确实需要点耐心和细心,但别担心,跟着小G(其实是跟着官方文档啦)一步步来,你也能搞定!咱们开始吧!🛠️

第一步:准备好“施法环境”

  1. 基础工具:

    • Git:

       你需要用它来下载项目代码。没有的话,搜一下“Git 安装”搞定它。

    • Python:

       版本很关键!官方指定要用 Python 3.9 或 3.10。可以在你的命令行输入 python --version 检查一下。版本不对?赶紧去Python官网下载个合适的版本。

  2. 强烈推荐:使用 Conda 管理环境为了避免跟你电脑里其他Python项目打架(库版本冲突很头疼的!),强烈建议用 conda 创建一个独立、干净的“小窝”给 GPT-SoVITS。如果你没装 Conda,可以搜一下 “Anaconda 安装”,下载安装一个(自带 Python 和 conda)。 打开你的 Anaconda Prompt 或者系统终端(命令行),执行:

# 示例:安装支持 CUDA 11.8 的 PyTorch (请替换成官网给你的命令!)pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

第二步 手动安装

安装 FFmpeg
Conda 用户
conda install ffmpeg
Ubuntu/Debian 用户
sudo apt install ffmpegsudo apt install libsox-devconda install -c conda-forge 'ffmpeg<7'
Windows 用户

下载并将 ffmpeg.exe 和 ffprobe.exe 放置在 GPT-SoVITS 根目录下.

安装 Visual Studio 2017 环境(仅限韩语 TTS)

MacOS 用户
brew install ffmpeg
安装依赖
pip install -r extra-req.txt --no-depspip install -r requirements.txt

在 Docker 中使用

docker-compose.yaml 设置
  1. image 的标签: 由于代码库更新很快, 镜像的打包和测试又很慢, 所以请自行在 Docker Hub(旧版本) 查看当前打包好的最新的镜像并根据自己的情况选用, 或者在本地根据您自己的需求通过 Dockerfile 进行构建.

  2. 环境变量:

  • is_half: 半精度/双精度控制.在进行 "SSL extracting" 步骤时如果无法正确生成 4-cnhubert/5-wav32k 目录下的内容时, 一般都是它引起的, 可以根据实际情况来调整为 True 或者 False.

  1. Volume 设置, 容器内的应用根目录设置为 /workspace. 默认的 docker-compose.yaml 中列出了一些实际的例子, 便于上传/下载内容.

  2. shm_size: Windows 下的 Docker Desktop 默认可用内存过小, 会导致运行异常, 根据自己情况酌情设置.

  3. deploy 小节下的 gpu 相关内容, 请根据您的系统和实际情况酌情设置.

通过 docker compose 运行
docker compose -f "docker-compose.yaml" up -d
通过 docker 命令运行

同上, 根据您自己的实际情况修改对应的参数, 然后运行如下命令:

docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-DockerTest\output:/workspace/output --volume=G:\GPT-SoVITS-DockerTest\logs:/workspace/logs --volume=G:\GPT-SoVITS-DockerTest\SoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx

预训练模型

若成功运行install.sh可跳过 No.1,2,3

中国地区的用户可以在此处下载这些模型.

  1. 从 GPT-SoVITS Models 下载预训练模型, 并将其放置在 GPT_SoVITS/pretrained_models 目录中.

  2. 从 G2PWModel.zip(HF)| G2PWModel.zip(ModelScope) 下载模型, 解压并重命名为 G2PWModel, 然后将其放置在 GPT_SoVITS/text 目录中. (仅限中文 TTS)

  3. 对于 UVR5 (人声/伴奏分离和混响移除, 额外功能), 从 UVR5 Weights 下载模型, 并将其放置在 tools/uvr5/uvr5_weights 目录中.

    • 如果你在 UVR5 中使用 bs_roformer 或 mel_band_roformer模型, 你可以手动下载模型和相应的配置文件, 并将它们放在 tools/UVR5/UVR5_weights 中.重命名模型文件和配置文件, 确保除后缀外, 模型和配置文件具有相同且对应的名称.此外, 模型和配置文件名必须包含"roformer", 才能被识别为 roformer 类的模型.

    • 建议在模型名称和配置文件名中直接指定模型类型, 例如mel_mand_roformerbs_roformer.如果未指定, 将从配置文中比对特征, 以确定它是哪种类型的模型.例如, 模型bs_roformer_ep_368_sdr_12.9628.ckpt 和对应的配置文件bs_roformer_ep_368_sdr_12.9628.yaml 是一对.kim_mel_band_roformer.ckpt 和 kim_mel_band_roformer.yaml 也是一对.

  4. 对于中文 ASR (额外功能), 从 Damo ASR Model、Damo VAD Model 和 Damo Punc Model 下载模型, 并将它们放置在 tools/asr/models 目录中.

  5. 对于英语或日语 ASR (额外功能), 从 Faster Whisper Large V3 下载模型, 并将其放置在 tools/asr/models 目录中.此外, 其他模型 可能具有类似效果且占用更少的磁盘空间.

数据集格式

文本到语音 (TTS) 注释 .list 文件格式:

vocal_path|speaker_name|language|text

语言字典:

  • 'zh': 中文

  • 'ja': 日语

  • 'en': 英语

  • 'ko': 韩语

  • 'yue': 粤语

示例:

D:\GPT-SoVITS\xxx/xxx.wav|xxx|zh|我爱玩原神.

项目传送门在此!

项目链接

https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

快去开启你的声音魔法之旅吧!如果你发现了什么有趣的玩法,也欢迎在评论区分享给大家哦!下次再有好项目,小G我继续给你推荐!回见!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值