GPT-SoVITS的部署与API调用（主要以AutoDL云端部署）

最新推荐文章于 2024-07-25 18:20:44 发布

#750

最新推荐文章于 2024-07-25 18:20:44 发布

阅读量3.2k

点赞数 21

文章标签： gpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_61884165/article/details/136918212

版权

项目介绍

GPT-SoVITS是一款强大的支持少量语音转换、文本到语音的音色克隆模型。支持中文、英文、日文的语言推理。

据开发者各大博主测验，仅需提供5秒语音样本即可体验达到80%-95%像的声音克隆。若提供一分钟语音样本可以逼近真人的效果，且训练出高质量的TTS模型。

源码github地址：https://github.com/RVC-Boss/GPT-SoVITS

训练推理整合包地址：百度网盘请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固，支持教育网加速，支持手机端。注册使用百度网盘即可享受免费存储空间https://pan.baidu.com/s/1OE5qL0KreO-ASHwm6Zl9gA?pwd=mqpi%EF%BC%88%E5%BA%A6%E7%9B%98%E8%A6%81%E6%B0%AA%E8%B6%85%E7%BA%A7%E4%BC%9A%E5%91%98%E6%89%8D%E8%83%BD%E6%BB%A1%E9%80%9F%E4%B8%8B%E8%BD%BD%EF%BC%89

windows一键启动

下载整合包的话直接双击go-webui.bat这个批处理文件即可

如果是下载源码的话，直接运行webui.py文件即可。

AutoDL云端部署

首先打开网页，租一个性价比高的显卡，我选的是RTX3090的显卡，然后点击“JupyterLab”进入终端操作界面。

模型训练就不说了，可以去哔站上看花儿不哭大佬的视频，耗时两个月自主研发的低成本AI音色克隆软件，免费送给大家！【GPT-SoVITS】_哔哩哔哩_bilibili

我从网上下载了模型，有两个文件，一个是GPT模型，另一个是sovits模型，分别把这两个模型放在GPT_weights和SoVITS_weights目录下，然后修改config.py文件中的模型路径，一定不要搞混了。

然后修改api文件中的端口，改成'127.0.0.1'，可以用本机调用。

我写了测试文件，访问网址，把结果文件success.wav放在项目根目录下。

然后在终端输入python api.py -dr "12345.wav" -dt "抱歉…空间站是黑塔女士交给小姐的东西，我必须优先考虑主控舱段和科员们的安全。" -dl "zh"，回车运行。

其中-dr参数是指定参考音频文件，-dt参数是参考文件的文本（必须一字不落，而且音频文件停顿的地方要加标点符号，不然合成的效果不好），-dl文件是指定语言种类。以上三个参数必须添加。

我的参考音频文件是12345.wav，文件内容是"抱歉…空间站是黑塔女士交给小姐的东西，我必须优先考虑主控舱段和科员们的安全。"

终端启动之后可以运行测试文件了。

最后把根目录中的success.wav下载到你自己的电脑里就行了。

如果要合成的文本比较长，需要调相关推理参数，把GPT-SoVITS/interence.webui.py文件中的不切改成按中文句号切。

关注

21
点赞
踩
34

收藏

觉得还不错? 一键收藏
4
评论
GPT-SoVITS的部署与API调用（主要以AutoDL云端部署）

GPT-SoVITS是一款强大的支持少量语音转换、文本到语音的音色克隆模型。支持中文、英文、日文的语言推理。据开发者各大博主测验，仅需提供5秒语音样本即可体验达到80%-95%像的声音克隆。若提供一分钟语音样本可以逼近真人的效果，且训练出高质量的TTS模型。训练推理整合包地址：百度网盘请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固，支持教育网加速，支持手机端。注册使用百度网盘即可享受免费存储空间。
复制链接

扫一扫

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。