从 语音合成 到 语音克隆,你不了解的还有多少?

从 语音合成 到 语音克隆,你不了解的还有多少?

1.初识Real_Time_Voice_Cloning

近日学习之余看到一篇语音合成的github开源项目 请戳这里,github原文地址 ,论文地址 论文地址请戳这里 ,该项目是2019年开源的,平台使用tensorflow,2021年2月又将环境移植到pytorch环境。但我研究了这么长的语音,直到现在我才了解到这个工具,也是比较惋惜。

2. 基本思路

在这里我也不介绍过多了,只大概讲一下其算法流程以及 克隆原理
在这里插入图片描述
在开始介绍之前,我按照我的理解先说一下,一个人的语音为什么特殊,那是因为 每个人的共振峰位置都有所差异,其中差异最大的则是第一共振峰的位置,此外第一共振峰的位置和第二共振峰之间的频率差也是决定一个人语音特色的关键,这里,我按照我的理解,将原论文中的流程分解为以下三部分,分别为
1. Speaker_Encoder(用于提取目标克隆人的共振峰位置信息向量),
2.Synthesizer(首先使用非常成熟的TTS将文字转化为语音的mel-语谱图,但是此时因为缺失共振峰信息,所以文中提出将目标克隆人的说话人特征加入到Synthesizer模块,从而形成含有特定说话人的mel-语谱图)
3.Vocoder(此部分则比较简单,且别人也做的比较成熟,就是将对数刻度的mel-语谱图生成对应的语音序列)

这里需要补充一下,在语音的一些研究中,所谓的mel-语谱图实际上是Fbank特征,因为鲜有文章记载,所以在此处为大家说明。不要简单的以为是语谱图 ,二者之间是存在差别的。

此处我只简单的按照我的理解将克隆语音的思路和流程讲出来,当然我也有可能讲的不对,如果有什么地方理解的不对,大家可以在下方留言评论。~

3.环境如何搭建

搭建环境,还是建议大家在anaconda环境下,重现创建一个环境,以免在移植环境的时候,将自己之前的其他代码的环境破坏了。别问我为什么这么说~_~!
此处默认大家已经都安装好了conda环境,如果没有安装好环境,建议再去寻找其他教程。

3.0 下载项目及预训练模型

Step 1: 下载github开源项目 请戳这里,github原文地址
Step 2: 下载预训练模型:预训练模型

3.1 创建conda虚拟环境并进入该虚拟环境

conda create -n real_time_clone python=3.6
activate real_time_clone

3.2 开始安装环境必备依赖包

pip install torch	#此处为了简便,我装了cpu版本的,

如果大家需要gpu版本的,可以参看我的另一篇博客 如何搭建pytorch_gpu版本

3.3 安装依赖环境

进入到开源项目文件夹下,并运行以下命令:

pip install -r requirements.txt

3.4 环境测试及运行demo

这里需要注意的是,需要提前吧下载的预训练模型加载到项目文件夹下。

python demo_cli.py
#这是简单测试环境是否成功,如果出现以下界面说明没有问题

在这里插入图片描述

python demo_toolbox.py
#程序运行完后,可以生成一个可视化界面,界面使用PyQT5编写

在这里插入图片描述

4. 后续探索

后续探索后更新~~

  • 3
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王延凯的博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值