内含教程丨音色克隆模型 GPT-SoVITS，5 秒语音就能克隆出相似度 95% 的声音

最新推荐文章于 2025-03-21 09:54:17 发布

HyperAI超神经

最新推荐文章于 2025-03-21 09:54:17 发布

阅读量4k

点赞数 33

分类专栏： ScienceAI 文章标签：数据库云计算语音识别人工智能音频

本文链接：https://blog.csdn.net/HyperAI/article/details/136484145

版权

ScienceAI 专栏收录该内容

218 篇文章

订阅专栏

「语音」是人类接触 AI 的「早教技术」，同时也是最早一批走出实验室，走进千家万户的 AI 技术。最初，人们针对智能语音的研究主要集中在语音识别上，即让机器听懂人类语言。

最早的基于电子计算机的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey，能够识别 10 个英文数字。1988 年，李开复实现了第一个基于隐马尔可夫模型的大词汇量语音识别系统 Sphinx。1997 年，世界上首个面向消费者的连续语音听写系统 Dragon NaturallySpeaking 正式发布。2009 年，微软在 Windows 7 操作系统中集成了语音功能。

2011 年，里程碑式产品 iPhone 4S 发布，Siri 的诞生将智能语音从识别带入了「交互」的新阶段。同年，谷歌宣布将在其内部测试开始 Google 搜索，并在未来的日子里将在 Google.com 上推出语音搜索。

从听到说的跃迁，也是人机交互繁荣发展的重要奠基石。如今，从智能家居到智能驾驶，再到机器人，语音交互在 AI 的不断升级下也变得更加流畅，各类应用百花齐放。在技术端，各大云计算厂商已经以 API 的形式开源了其 AI 语音能力，开发者能够基于此进一步搭建应用。

近年来，随着大模型持续火爆，直接在模型层面的能力开源得到了越来越多的关注，开发者能够通过对模型进行训练、微调，进一步提升模型与其所开发的应用之间的部署效果。

不久前，RVC (Retrieval based Voice Conversion) 创始人（GitHub 账号：RVC-Boss）开源了一款音色克隆项目 GPT-SoVITS，上线后便获得极高热度，不少博主、开发者用当下流行的影视角色、动漫人物的音色，花样定制各类帆船台词，抓马的效果与易操作的体验，也令一批网友闻风而来，再一次为其热度添柴。据各大博主测试，仅需提供 5 秒语音样本，便可收获相似度达到 80%~95% 的克隆语音。

目前，该模型部署教程已上线 HyperAI超神经官网，点击开始克隆：

https://hyper.ai/tutorials/29812

小编让原神角色派蒙客串了一下甄嬛传里的皇后，派蒙秒变乌拉那拉氏皇后。

 B 站热门 up 主 Jack-Cui 制作的 AI 声音克隆教程如下：

https://www.bilibili.com/video/BV1WC411W79t/?spm_id_from=333.788&vd_source=5e54209e1f8c68b7f1dc3df8aabf856c

手把手教程如下，准备好 5 秒语音就能开始训练你的声音克隆模型啦！