惊喜，我克隆了对象的的声音

最新推荐文章于 2024-09-21 07:04:01 发布

唐城

最新推荐文章于 2024-09-21 07:04:01 发布

阅读量645

点赞数

文章标签： java python sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41570658/article/details/121372470

版权

唐城 | 未来已来专栏收录该内容

39 篇文章 3 订阅

订阅专栏

以下文章来源于Jack Cui ，作者Jack Cui

今天，给大家介绍一个算法。

AI 算法 5 秒钟，就能克隆你的声音，你信吗？

听听这段音频，猜猜看是 AI 合成音，还是真人录音？

答案是：AI 合成。

这个人的原始声音在这里：

你给这个 AI 克隆声音的算法打几分？

上述两个音频，算法运行起来的效果：

录制一段音频，就可以根据输入的文字，5s 即可自动生成对应的合成音。

突然有个大胆的想法，你说女朋友要是哪天突然不承认自己说过了某句话，我就给她造一份！

兄弟们，我做的对吗？

MockingBird

这个算法是基于比较著名的 Real Time Voice Cloning 实现的。

MockingBird 是最近开源的中文版。

论文的名字是：

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

简单介绍下：

算法分为三个模块：encoder模块、systhesis模块、vocoder模块。

encoder模块将说话人的声音转换成人声的数字编码（speaker embedding）
synthesis 模块将文本转换成梅尔频谱（mel-spectrogram）
vocoder模块将梅尔频谱（mel-spectrogram）转换成（波形）waveform

具体的算法原理，大家可以先看论文：

https://arxiv.org/pdf/1806.04558.pdf

今天主要聊聊，这个算法怎么玩。

项目地址：https://github.com/babysor/MockingBird

有深度学习基础的话，这个应该不难。

就是部署环境，分四步：

Anaconda 配置 Pytorch 开发环境
根据项目 requirements.txt 安装第三方库依赖
下载权重文件
下载训练集，这个几十G，有点大

具体的配置方法，直接看这里：

https://github.com/babysor/MockingBird/blob/main/README-CN.md

环境搭建搞定后，就可以运行代码了。

有两种模式可以启动，Web 模式和工具箱模式。

在项目根目录运行：

python web.py

即可开启 Web ，打开地址 http://localhost:8080 就能操作了。

这个界面比较简陋，建议使用工具箱模式。

python demo_toolbox.py -d <datasets_root>

datasets_root就是下载好的数据集的地址。

Enjoy it！

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

唐城 小朋友，你是不是有很多问号？

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。