大家好,我是 七七。
今天,给大家介绍一个算法。
AI 算法 5 秒钟,就能克隆你的声音,你信吗?
听听这段音频,猜猜看是 AI 合成音,还是真人录音?
答案是:AI 合成。
这个人的原始声音在这里:
你给这个 AI 克隆声音的算法打几分?
上述两个音频,算法运行起来的效果:
录制一段音频,就可以根据输入的文字,5s 即可自动生成对应的合成音。
突然有个大胆的想法,你说女朋友要是哪天突然不承认自己说过了某句话,我就给她造一份!
兄弟们,我做的对吗?
MockingBird
这个算法是基于比较著名的 Real Time Voice Cloning 实现的。
MockingBird 是最近开源的中文版。
论文的名字是:
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
简单介绍下:
算法分为三个模块:encoder模块、systhesis模块、vocoder模块。
-
encoder模块将说话人的声音转换成人声的数字编码(speaker embedding)
-
synthesis 模块将文本转换成梅尔频谱(mel-spectrogram)
-
vocoder模块将梅尔频谱(mel-spectrogram)转换成(波形)waveform
具体的算法原理,大家可以先看论文:
https://arxiv.org/pdf/1806.04558.pdf
论文还没详细看,等我研究好后,后面有机会再发吧。
今天主要聊聊,这个算法怎么玩。
项目地址:https://github.com/babysor/MockingBird
有深度学习基础的话,这个应该不难。
就是部署环境,分四步:
-
Anaconda 配置 Pytorch 开发环境
-
根据项目 requirements.txt 安装第三方库依赖
-
下载权重文件
-
下载训练集,这个几十G,有点大
具体的配置方法,直接看这里:
https://github.com/babysor/MockingBird/blob/main/README-CN.md
环境搭建的方法,可以参考我写过的两篇文章:
都搞定了,就可以运行代码了。
有两种模式可以启动,Web 模式和工具箱模式。
在项目根目录运行:
python web.py
即可开启 Web ,打开地址 http://localhost:8080 就能操作了。
这个界面比较简陋,建议使用工具箱模式。
python demo_toolbox.py -d <datasets_root>
datasets_root
就是下载好的数据集的地址。
总结
Enjoy it!
喜欢的话,来个再看喽~
如果人多的话,后面我再出个详细的算法原理剖析和训练教程。
我是 七七,我们下期见~
关于Python学习指南
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python!
👉Python所有方向的学习路线👈
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取)
👉Python学习视频600合集👈
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
温馨提示:篇幅有限,已打包文件夹,获取方式在:文末
👉Python70个实战练手案例&源码👈
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉Python大厂面试资料👈
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
👉Python副业兼职路线&方法👈
学好 Python 不论是就业还是做副业赚钱都不错,但要学会兼职接单还是要有一个学习规划。
👉 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费
】
