一分钟训练，复刻你的声音

最新推荐文章于 2024-05-17 13:52:13 发布

可乐鸡翅-

最新推荐文章于 2024-05-17 13:52:13 发布

阅读量464

点赞数 10

分类专栏：每天3分钟，打破开源信息差文章标签：开源 javascript typescript react.js 前端

本文链接：https://blog.csdn.net/weixin_42684490/article/details/136694815

版权

每天3分钟，打破开源信息差专栏收录该内容

39 篇文章 6 订阅

订阅专栏

公众号：【可乐前端】，每天3分钟学习一个优秀的开源项目，分享web面试与实战知识。

每天3分钟开源

hi，这里是每天3分钟开源，很高兴又跟大家见面了，今天介绍的开源项目简介如下：

仓库名：RVC-Boss/GPT-SoVITS

项目名：GPT-SoVITS

开源地址：https://github.com/RVC-Boss/GPT-SoVITS

主要语言： Python

stars数量：17918

forks数量：1888

开源协议：MIT License

一句话介绍

这是一个基于 GPT-SoVITS 的强大的少样本语音转换和文本转语音的WebUI开源项目。

详细描述

GPT-SoVITS 是一个开源项目，它使用大约一分钟的语音数据便可以训练出一个优秀的TTS模型。

项目的核心技术是 Zero-shot TTS 和 Few-shot TTS。

Zero-shot TTS 可以让用户输入5秒钟的语音样本并立即体验转换后的语音，而 Few-shot TTS 则可以通过使用仅一分钟的训练数据进行模型微调，从而提高语音相似度和真实性。

该项目支持多语言推理，包括但不限于英语，日语和中文。此外，项目还提供了一些集成工具，包括声音伴奏分离，自动训练集分割，中文ASR和文本标签，帮助初学者创建训练数据集和 GPT/SoVITS 模型。

具体功能

Zero-shot TTS：用户只需输入5秒钟的语音样本，就可以立即体验文本到语音的转换。
Few-shot TTS：使用只有一分钟的训练数据微调模型，以提高语音的相似度和真实感。
跨语言支持：可以在与训练数据集不同的语言中进行推理，目前支持英语，日语和中文。
WebUI 工具：集成工具包括声音伴奏分离，自动训练集分割，中文ASR和文本标签，帮助初学者创建训练数据集和GPT/SoVITS模型。

如何使用

环境要求：Python 3.9，PyTorch 2.0.1，CUDA 11；Python 3.10.13，PyTorch 2.1.2，CUDA 12.3；Python 3.9，PyTorch 2.3.0.dev20240122，macOS 14.3。此外，numba==0.56.4要求py<3.11。
安装：用户可以直接下载预打包的发行版并双击go-webui.bat来启动GPT-SoVITS-WebUI。对于Linux和macOS用户，可以使用anaconda创建一个新的环境并在其中安装必要的依赖，然后运行安装脚本。
预训练模型：从GPT-SoVITS模型下载预训练模型，并将它们放在GPT_SoVITS/pretrained_models文件夹中。对于UVR5（声音/伴奏分离和混响去除），从UVR5权重下载模型，并将它们放在tools/uvr5/uvr5_weights文件夹中。
数据集格式：TTS注释的.list文件格式为：vocal_path|speaker_name|language|text。语言字典为：‘zh’: Chinese，‘ja’: Japanese，‘en’: English。例如：D:\\GPT-SoVITS\\xxx/xxx.wav|xxx|en|I like playing Genshin.

无论你是语音技术的专业人士，还是对语音技术感兴趣的初学者，GPT-SoVITS都将为你提供一个全新的、便捷的语音克隆体验。快来尝试一下吧！