GPT-SoVITS项目重大更新全解析：从语音合成到多语言支持的技术演进

胡晗研

于 2025-05-30 09:07:17 发布

阅读量278

点赞数 5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gitblog_01004/article/details/148324869

版权

GPT-SoVITS项目重大更新全解析：从语音合成到多语言支持的技术演进

GPT-SoVITS 项目地址: https://gitcode.com/gh_mirrors/gp/GPT-SoVITS

项目概述

GPT-SoVITS是一个先进的语音合成与转换系统，集成了GPT模型与SoVITS技术，能够实现高质量的语音合成、语音转换以及多语言混合处理。该系统不断迭代更新，在语音质量、训练效率和多语言支持等方面持续优化。

2024年1月更新亮点

核心功能增强

网络共享功能：新增is_share配置项，支持在云端环境(如Colab)中将WebUI映射到公网，极大方便了远程使用场景。
多语言支持：
- 新增英文系统翻译支持
- 测试验证了英语和日语训练的原生支持
- 日语训练要求根目录不含非英文字符
自动模型检测：cmd-asr模块现在能自动检测FunASR模型是否存在，若未找到则自动从ModelScope下载，简化了部署流程。

训练稳定性改进

修复了SoVITS训练中的ZeroDivisionError问题，通过过滤零长度样本等方式提高训练稳定性
解决了Hubert特征提取导致的NaN错误问题
优化了GPU精度设置，对16系列等不支持半精度的GPU自动切换为单精度训练

用户体验优化

清理了TEMP文件夹中的缓存音频文件
大幅减少了合成音频包含参考音频结尾的问题
改进了音频路径检查机制，提供更友好的错误提示
新增推理WebUI中的快速模型切换功能

2024年2月重大更新

多语言混合处理

文本处理能力：
- 新增中英混合、日英混合输出文本支持
- 增加可选的文本分段模式
- 优化中英文标点处理，添加句子首尾标点
- 支持按标点进行文本分割
前端优化：
- 替换jieba为jieba_fast提升中文分词效率
- 优化英文文本前端处理
- 修复数字读法转换为汉字的问题

训练与推理改进

设置参考音频长度限制，排除不合理长度的音频
修复GPT训练不保存检查点的问题
支持Mac平台上的训练和推理
对不支持半精度的GPU强制使用单精度推理

错误修复与稳定性

自动移除路径相关输入中的双引号，防止新手用户错误
修复UVR5读取格式错误导致的分离失败问题
支持自动分段和语言识别混合中-日-英文本

2024年3-5月技术突破

性能优化

推理加速：通过PR 672实现了50%的推理速度提升（在RTX3090 + PyTorch 2.2.1环境下测试）
资源管理：
- 优化GPU识别逻辑
- 为Faster Whisper添加CPU自动回退功能
- 修复Mac平台CPU推理问题

核心功能增强

新增无参考文本模式支持
优化API格式
修复Hubert特征提取中的关键bug
修复SoVITS训练中未冻结VQ导致的质量下降问题
新增快速推理分支

2024年6月重要更新

文本处理优化

改进纯标点和多标点文本输入的处理逻辑
修复WebUI中GPT微调不读取中文输入BERT特征的问题 注意：若之前使用大量数据微调过模型，建议重新微调以提高质量

UVR5改进

修复MDXNet去混响的CMD格式问题，支持含空格的路径
优化UVR5进度条逻辑

2024年7月技术进展

性能与稳定性

修复CPU推理中默认批次大小的小数问题
优化多GPU训练的多进程保存逻辑
验证并合并快速推理代码到主分支

新功能

支持语音合成语速调整
实现在调整语速时冻结随机性

2024年8月重大升级

语音分离增强

新增BS RoFormer人声伴奏分离模型支持
启用FP16推理加速
添加Mel Band RoFormer模型用于人声与乐器分离

中文文本处理

支持多音字处理(v2版本)
新增量词支持
支持算术和基本数学公式
修复混合文本错误

多语言支持

添加粤语ASR支持
支持GPT-SoVITS v2版本
优化韩语/日语处理，解决非英文目录问题

2025年2月v3版本革新

模型架构升级

推出GPT-SoVITS v3模型
- 微调需要14GB显存
- 通过梯度检查点优化后降至12GB显存
- 支持LoRA训练(仅需8GB显存且效果优于全参数微调)

多语言处理突破

优化多语言混合文本分割策略
- 新增split-lang语言分割工具
- 改进数字和英文处理逻辑
- 支持SSML标签优化数字、电话号码、日期和时间表达

音频质量提升

新增24K到48K音频超分辨率模型
- 解决v3模型生成24K音频时的闷响问题
- 显著提升输出音频质量

技术总结与展望

GPT-SoVITS项目通过持续迭代，在语音合成质量、多语言支持、训练效率和用户体验等方面取得了显著进展。从最初的单语言支持到现在的多语言混合处理，从基础功能到v3版本的重大架构升级，该项目展现了强大的技术生命力和创新潜力。

未来，项目团队将继续验证快速推理分支的变更一致性，并有望在更多语言支持、更低资源消耗和更高音质方面取得突破。对于语音技术开发者和研究者而言，GPT-SoVITS无疑是一个值得关注和深入探索的技术平台。

GPT-SoVITS 项目地址: https://gitcode.com/gh_mirrors/gp/GPT-SoVITS

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

胡晗研 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。