AI-GPT-SoVITS语音合成使用教程

最新推荐文章于 2025-03-03 15:59:57 发布

Z天蝎座

最新推荐文章于 2025-03-03 15:59:57 发布

阅读量860

点赞数 4

分类专栏：大模型语音合成文章标签：人工智能 gpt 音频

本文链接：https://blog.csdn.net/qq_16155205/article/details/142187394

版权

3 篇文章

订阅专栏

1 篇文章

订阅专栏

声明：此文档只做科学研究使用，请勿用作其他用途。
Gpt-sovits是一个强大的少样本语音转换与语音合成工具。

https://github.com/RVC-Boss/GPT-SoVITS/tree/main

cuda	12.1
显卡	RTX3060 12G
内存	48G （用不了）

https://live.csdn.net/v/424022

git clone https://github.com/RVC-Boss/GPT-SoVITS.git

clone 完毕后进入目录直接点击go-webui.bat即可启动

需要切割原因是利于推理等
sovits语音切割处理

语音识别过程，模型可选达摩ASR和fast whisper，达摩识别中文较好。
在这里插入图片描述

文件打标处理异常视频，以及保存正常语音文件，保证文件正确性。
so-vits打标
合并视频，处理异常视频等

通过文件标注文件，以及音频文件进行预训练。
格式化

直接点击开启模型训练。
在这里插入图片描述

训练后刷新模型并点击开启TTS推理页。
在这里插入图片描述

以上步骤完成无误后，即可开启合成。
so-vits合成页

‌Clipchamp‌是一个视频剪辑软件，它被微软收购并集成到Microsoft 365中，提供了一个基于Web的视频编辑工具，允许用户轻松创建视频。其中有文字转语音功能并且可以直接导出使用。

如果只想测试语音或者直接使用其他平台的文字转语音功能，可使用微软免费提供的web版工具。

https://app.clipchamp.com/

clipchamp 界面如图。
clipchamp界面
以上两种工具各有优缺点，合理利用，效率加倍。