克隆你的声音
今天推荐一个黑科技开源项目,只需要你 5 秒钟的声音对话,就能克隆出你的声音,而且能够实时的生成你任意语音。
是不是很顶?
我举个例子,如果我这里有 300 条你说话的语音,我把你的语音数据用这个开源项目去训练,训练完成后,我就可以使用这个训练好的模型生成任何你说的语音了。
你会听到一个声音和你一模一样的人说你没说过的话,那种感觉真的细思极恐。
这个黑科技就是:Real-Time-Voice-Cloning,现在已经开源,GitHub 24K 的 Star,最重要的是,这个项目提供了 GUI 界面,交互傻瓜式操作,语音采集、训练、生成都可以交互完成,很方便。
地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning
环境配置
首先你需要 Python 3.6 的环境、安装 PyTorch(要求版本 > = 1.0.1)。Pytorch 是深度学习框架,你可以通过这个站点来安装这个库。
https://pytorch.org/get-started/locally/
紧接着需要安装 ffmpeg:
地址 https://ffmpeg.org/download.html#get-packages。除此之外,你还需要安装其他的依赖包。将项目下载下来,在包含 requirements.tx 目录下运行命令 pip install -r requirements.txt 就行了。
下载预训练的模型
把开源作者训练好的模型下载下来,我们不用自己训练,直接拿来用就行了:https://github.com/CorentinJ/Real-Time-Voice-Cloning/wiki/Pretrained-models,
下载完毕要放到如下的文件夹里面。
encoder\saved_models\pretrained.pt
synthesizer\saved_models\pretrained\pretrained.pt
vocoder\saved_models\pretrained\pretrained.pt
Details about model training and audio samples can be found here: https://blue-fish.github.io/experiments/RTVC-7.html
启动
当你配完了环境,就可以尝试使用这个黑科技了。运行命令 python demo_toolbox.py 就能启动这个黑科技啦!
下面是比较详细的使用教程,遇到问题可以查看帮助:
https://www.bilibili.com/video/av79481223?zw
https://blog.csdn.net/weixin_41010198/article/details/113186232
最后结尾说一下,我用这个模型试了一下,因为这个模型是老外开源的,所以训练的数据是英语的语音,我试了一下说中文,简直就是不会说中文的老外讲中文一个味道,现在我怀疑世界的真实性了。
开源地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning
AI 声音模拟器:MockingBird
MockingBird是由 @babysor 发布的AI声音模拟器,目前在GitHub上已经获得了24.5K的stars。
该AI声音模拟器能够在5s内学习我们的声音,基于学习到的声音生成任意内容的语音。逛姐用这个声音模拟器生成了一个逛姐版语音”晚安,玛卡巴卡“,赠与老逛好梦
开源地址:https://github.com/babysor/MockingBird
歌声音色转换模型
一个基于 Vits 与 Softvc 的歌声音色转换模型,可以将一个音频中语音的音色转化为目标说话人的音色,歌声音色转换模型。
开源地址:https://github.com/innnky/so-vits-svc
AI 生成逼真语音
这个开源项目叫做 Bark,它可以生成高度逼真的多语言语音以及一些音频,包括音乐、背景噪音等等。
几乎无法发现是 AI 生成的。除了让 AI 平铺直叙的说一段话,还支持情绪模式,比如大笑、大哭等等。
开源项目:https://github.com/suno-ai/bark
歌声转换
最近孙燕姿 AI 翻唱大火,通过 AI 可以让孙燕姿唱《发如雪》,而且没有任何违和感。达到如此惊艳的效果都依赖于一个开源项目 so-vits-svc,这是一个歌声音色转化的模型。
https://github.com/svc-develop-team/so-vits-svc
OpenVoice
OpenVoice 主要优势可以分为三个方面:
-
准确的音色克隆:OpenVoice 能够准确地克隆参考音色,并生成多种语言和口音的语音。
-
灵活的语音风格控制:OpenVoice 允许对语音风格进行细粒度控制,例如情感和口音,以及其他风格参数,包括节奏、停顿和语调。
-
零样本跨语言语音克隆:生成的语音或参考语音的语言都不需要出现在大规模多语言训练数据集中。
OpenVoice 自 2023 年 5 月以来一直在为 myshell.ai 的即时语音克隆功能提供支持。截至 2023 年 11 月,全球用户已经使用了数千万次语音克隆模型,并在平台上见证了用户数量的爆炸性增长。
开源地址:https://github.com/myshell-ai/OpenVoice
通过音频生成人物形象
audio2photoreal 开源项目由 Facebook Research 开源。这个项目可以从音频生成逼真的人物形象,该项目包含了训练代码、测试代码、预训练的动作模型以及数据集。
这个项目还提供了一个简单的 gradio 演示,你可以录制音频并选择你想要生成的样本数量。此外,你可以在这个项目的 发布页面 下载数据和模型。
开源地址:https://github.com/facebookresearch/audio2photoreal
原文链接: