AI-GPT-SoVITS语音合成使用教程

简介

声明:此文档只做科学研究使用,请勿用作其他用途。
Gpt-sovits是一个强大的少样本语音转换与语音合成工具。

项目地址

https://github.com/RVC-Boss/GPT-SoVITS/tree/main

官方功能

  1. 零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
  2. 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
  3. 跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语、韩语、粤语和中文。
  4. WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。

测试环境

cuda12.1
显卡RTX3060 12G
内存48G (用不了)

本地合成效果

https://live.csdn.net/v/424022

Windows一键启动

git clone https://github.com/RVC-Boss/GPT-SoVITS.git

clone 完毕后进入目录直接点击go-webui.bat即可启动

语音处理过程

1. 原声处理(分离人声和背景声)

  1. 选择一段wav语音文件
  2. 开启图中uvr5-webui进入页面
    开启uvr5
  3. 进入uvr5选择处理的语音以及模型输出到相应位置
    uvr5处理成干净声音

2. 语音切割处理

需要切割原因是利于推理等
sovits语音切割处理

3. Asr批量处理

语音识别过程,模型可选达摩ASR和fast whisper,达摩识别中文较好。
在这里插入图片描述

4. 文件打标

文件打标处理异常视频,以及保存正常语音文件,保证文件正确性。
so-vits打标
合并视频,处理异常视频等

5.训练集格式化

通过文件标注文件,以及音频文件进行预训练。
格式化

6. 模型训练

直接点击开启模型训练。
在这里插入图片描述

7. 推理

训练后刷新模型并点击开启TTS推理页。
在这里插入图片描述

8. 合成页

以上步骤完成无误后,即可开启合成。
so-vits合成页

微软‌Clipchamp‌使用

‌Clipchamp‌是一个视频剪辑软件,它被微软收购并集成到Microsoft 365中,提供了一个基于Web的视频编辑工具,允许用户轻松创建视频。其中有文字转语音功能并且可以直接导出使用。

如果只想测试语音或者直接使用其他平台的文字转语音功能,可使用微软免费提供的web版工具。

地址

https://app.clipchamp.com/

页面

clipchamp 界面如图。
clipchamp界面
以上两种工具各有优缺点,合理利用,效率加倍。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Z天蝎座

老天 掉馅饼吧!!!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值