从语音合成到语音克隆，你不了解的还有多少？

最新推荐文章于 2025-03-07 16:41:23 发布

王延凯的博客

最新推荐文章于 2025-03-07 16:41:23 发布

阅读量5.9k

点赞数 3

分类专栏：语音信号处理语音识别 python 文章标签：语音合成语音克隆 python 语音识别 mel-语谱图

本文链接：https://blog.csdn.net/weixin_38468077/article/details/118659364

版权

语音信号处理同时被 3 个专栏收录

24 篇文章

订阅专栏

语音识别

15 篇文章

订阅专栏

python

11 篇文章

订阅专栏

从语音合成到语音克隆，你不了解的还有多少？

1.初识Real_Time_Voice_Cloning

近日学习之余看到一篇语音合成的github开源项目请戳这里，github原文地址，论文地址论文地址请戳这里，该项目是2019年开源的，平台使用tensorflow，2021年2月又将环境移植到pytorch环境。但我研究了这么长的语音，直到现在我才了解到这个工具，也是比较惋惜。

2. 基本思路

在这里我也不介绍过多了，只大概讲一下其算法流程以及克隆原理
在这里插入图片描述
在开始介绍之前，我按照我的理解先说一下，一个人的语音为什么特殊，那是因为每个人的共振峰位置都有所差异,其中差异最大的则是第一共振峰的位置，此外第一共振峰的位置和第二共振峰之间的频率差也是决定一个人语音特色的关键，这里，我按照我的理解，将原论文中的流程分解为以下三部分，分别为
1. Speaker_Encoder(用于提取目标克隆人的共振峰位置信息向量),
2.Synthesizer(首先使用非常成熟的TTS将文字转化为语音的mel-语谱图，但是此时因为缺失共振峰信息，所以文中提出将目标克隆人的说话人特征加入到Synthesizer模块，从而形成含有特定说话人的mel-语谱图）
3.Vocoder（此部分则比较简单，且别人也做的比较成熟，就是将对数刻度的mel-语谱图生成对应的语音序列）

这里需要补充一下，在语音的一些研究中，所谓的mel-语谱图实际上是Fbank特征，因为鲜有文章记载，所以在此处为大家说明。不要简单的以为是语谱图 ，二者之间是存在差别的。

此处我只简单的按照我的理解将克隆语音的思路和流程讲出来，当然我也有可能讲的不对，如果有什么地方理解的不对，大家可以在下方留言评论。~

3.环境如何搭建

搭建环境，还是建议大家在anaconda环境下，重现创建一个环境，以免在移植环境的时候，将自己之前的其他代码的环境破坏了。别问我为什么这么说~_~!
此处默认大家已经都安装好了conda环境，如果没有安装好环境，建议再去寻找其他教程。

3.0 下载项目及预训练模型

Step 1: 下载github开源项目请戳这里，github原文地址
Step 2: 下载预训练模型：预训练模型

3.1 创建conda虚拟环境并进入该虚拟环境

conda create -n real_time_clone python=3.6
activate real_time_clone

3.2 开始安装环境必备依赖包

pip install torch	#此处为了简便，我装了cpu版本的，

如果大家需要gpu版本的，可以参看我的另一篇博客如何搭建pytorch_gpu版本

3.3 安装依赖环境

进入到开源项目文件夹下，并运行以下命令：

pip install -r requirements.txt

3.4 环境测试及运行demo

这里需要注意的是，需要提前吧下载的预训练模型加载到项目文件夹下。

python demo_cli.py
#这是简单测试环境是否成功，如果出现以下界面说明没有问题

在这里插入图片描述

python demo_toolbox.py
#程序运行完后，可以生成一个可视化界面，界面使用PyQT5编写

在这里插入图片描述

4. 后续探索

后续探索后更新~~

从 语音合成 到 语音克隆，你不了解的还有多少？

从 语音合成 到 语音克隆，你不了解的还有多少？

1.初识Real_Time_Voice_Cloning

2. 基本思路

3.环境如何搭建

3.0 下载项目及预训练模型

3.1 创建conda虚拟环境并进入该虚拟环境

3.2 开始安装环境必备依赖包

3.3 安装依赖环境

3.4 环境测试及运行demo

4. 后续探索

从语音合成到语音克隆，你不了解的还有多少？

从语音合成到语音克隆，你不了解的还有多少？