内含教程丨音色克隆模型 GPT-SoVITS,5 秒语音就能克隆出相似度 95% 的声音

「语音」是人类接触 AI 的「早教技术」,同时也是最早一批走出实验室,走进千家万户的 AI 技术。最初,人们针对智能语音的研究主要集中在语音识别上,即让机器听懂人类语言。


最早的基于电子计算机的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey,能够识别 10 个英文数字。1988 年,李开复实现了第一个基于隐马尔可夫模型的大词汇量语音识别系统 Sphinx。1997 年,世界上首个面向消费者的连续语音听写系统 Dragon NaturallySpeaking 正式发布。2009 年,微软在 Windows 7 操作系统中集成了语音功能。


2011 年,里程碑式产品 iPhone 4S 发布,Siri 的诞生将智能语音从识别带入了「交互」的新阶段。同年,谷歌宣布将在其内部测试开始 Google 搜索,并在未来的日子里将在 Google.com 上推出语音搜索。


从听到说的跃迁,也是人机交互繁荣发展的重要奠基石。如今,从智能家居到智能驾驶,再到机器人,语音交互在 AI 的不断升级下也变得更加流畅,各类应用百花齐放。在技术端,各大云计算厂商已经以 API 的形式开源了其 AI 语音能力,开发者能够基于此进一步搭建应用。


近年来,随着大模型持续火爆,直接在模型层面的能力开源得到了越来越多的关注,开发者能够通过对模型进行训练、微调,进一步提升模型与其所开发的应用之间的部署效果。


不久前,RVC (Retrieval based Voice Conversion) 创始人(GitHub 账号:RVC-Boss)开源了一款音色克隆项目 GPT-SoVITS,上线后便获得极高热度,不少博主、开发者用当下流行的影视角色、动漫人物的音色,花样定制各类帆船台词,抓马的效果与易操作的体验,也令一批网友闻风而来,再一次为其热度添柴。据各大博主测试,仅需提供 5 秒语音样本,便可收获相似度达到 80%~95% 的克隆语音。


目前,该模型部署教程已上线 HyperAI超神经官网,点击开始克隆:

https://hyper.ai/tutorials/29812


小编让原神角色派蒙客串了一下甄嬛传里的皇后,派蒙秒变乌拉那拉氏皇后。


 B 站热门 up 主 Jack-Cui 制作的 AI 声音克隆教程如下:

https://www.bilibili.com/video/BV1WC411W79t/?spm_id_from=333.788&vd_source=5e54209e1f8c68b7f1dc3df8aabf856c


手把手教程如下,准备好 5 秒语音就能开始训练你的声音克隆模型啦!


数据准备


目前该教程内已预设多款经典角色音色供大家体验,如想克隆其它音色,则需要准备一段该音色 MP3 格式的音频文件,最好为单独人声(30s 左右即可),高质量的音频文件可以提升克隆声音的逼真程度。


1. 点击「在线运行此教程」,跳转至 OpenBayes 平台。


fd994cef152779db1d8c08986d534098.jpeg


2. 点击「克隆」,复刻该模型。(此步骤只可体验 B 站 up 主 Jack-Cui 已上传的音色)


b1bbbf305713370eb3947c4e5bb007d7.jpeg


3. 如果想自定义克隆音色,需要创建全新的数据集。通过左侧菜单栏中的「数据集」后,点击「创建新数据集」。


37269817ae92801f1a1b2e1f9259cef9.jpeg


4. 按照要求填写好「数据集名称」和「数据集描述后」,点击「创建数据集」。


7b65a26ef5f912e6245a940b632d4358.jpeg


5. 创建完成后,点击右上角「上传新版本」,将想要克隆的音频文件上传。


9b7523fe6ef66a23fbe1150c7c25a9b3.jpeg


Demo 运行


1. 数据准备完成后,在左侧菜单栏「公共教程」中,打开「GPT-SoVITS 音频合成在线 Demo」,回到该教程页面,再点击右上角「克隆」,将教程克隆至自己的容器中。


5619daec28856c0cec4dd0b17956c40b.jpeg


5d0a6fa3d0709bc89ce6b0246b7bc9bf.jpeg


2. 目前,demo 已经绑定了可莉、华妃、甄嬛、胖橘的音频数据。目前绑定数据的数量已满,可以删除不需要的音频数据后添加自己创建的数据集。


b7369ee380785b9761b06ba17d5d6d13.jpeg


3. 添加完成后,点击「审核并执行」。


4. 跳转页面后,点击「继续执行」。推荐使用 RTX 4090。


小编为大家争取到了新用户福利!新用户使用下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 免费算力时长。


HyperAI超神经专属邀请链接(直接复制到浏览器打开即可注册):

https://openbayes.com/console/signup?r=Ada0322_QZy7


0a6c3fedd8e60918abeba2166d78fdc8.jpeg


5. 稍等片刻,待状态会变为「运行中」后,点击「打开工作空间」。首次克隆启动该容器约需要 3-5 分钟,如超过 10 分钟仍处于「正在分配资源」状态,可尝试停止并重启容器;如重启仍无法解决,请在官网联系平台客服。


ab4b54ad9a542eaddd1ab5048d5dd421.jpeg


6. 打开工作空间后,点击左侧「run.ipynb」,通过菜单栏中的「运行」按钮,点击「运行所有单元格」。


699334a71a4b66d4316aae35b2b9e116.jpeg


7. 找到「Running on public URL」,打开该链接。


2aa6e979b642de9e83f33563ffb98f0d.jpeg


8. 在「数据集地址」模块内填写本次想要克隆声音的数据集地址,选择音频数据类型后,点击「开始训练」,待输出结果显示为「模型正在开启预测,请稍后」,回到「run.ipynb」,即可看到显示「GPT 训练完成」。


46ac756821c4186e7b03deb9bc42e4d1.jpeg


ec045fe5851e8750af2c25d0615b5e18.jpeg


18e186d6fb95d9d8ba64b679aaa083db.jpeg


127e3231ed444e90a92df5d7181d8175.jpeg


9. 打开右侧「API 地址」,请注意,用户需在实名认证后才能使用 API 地址访问功能。


bc7c0b33d1e4acb11df839e065979b44.jpeg


效果展示


1. 在「GPT 模型列表」和「SoVITS 模型列表」选择训练好的模型,然后在「Inference text」中输入文本,点击「Start inference」后,稍等片刻,就能愉快地玩耍啦!


c185feb99e2d99d9e47ef3e9757f0069.jpeg


目前,HyperAI超神经官网已上线了数百个精选的机器学习相关教程,并整理成 Jupyter 记事本的形式。


点击链接即可搜索相关教程及数据集:

https://hyper.ai/tutorials

  • 32
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值