griffin-lim算法及 vocoder声码器

最新推荐文章于 2025-03-04 14:46:05 发布

GFward

最新推荐文章于 2025-03-04 14:46:05 发布

阅读量8.2k

点赞数 4

分类专栏：语音信号处理语音合成

本文链接：https://blog.csdn.net/CSDN_71560364126/article/details/103968034

版权

语音合成同时被 2 个专栏收录

16 篇文章

订阅专栏

语音信号处理

8 篇文章

订阅专栏

本文深入探讨了Griffin-Lim算法在语音合成中的应用，介绍了如何从MEL谱重建语音波形，以及该算法在声码器中的角色。同时，概述了多种声码器技术和端到端语音合成系统的组成部分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

G&L(griffin-lim)算法是一种已知幅度谱，未知相位谱，通过迭代生成相位谱，并用已知的幅度谱和计算得出的相位谱，重建语音波形的方法。其实语音合成汇总常常使用的MEL-spectrum 和 linear-spectrum里面节缺少相位信息。

griffin-lim是一种声码器，常用于语音合成，用于将语音合成系统生成的声学参数转换成语音波形，这种声码器不需要训练，不需要预知相位谱，而是通过帧与帧之间的关系估计相位信息，从而重建语音波形。

声码器（vocoder）

声码器是一种将声学参数转换成语音波形的工具。griffin-lim是一种较为经典的声码器，算法简单，高效。
另外较多使用的vocoder有： WORLD, STRAIGHT及其变种； WaveNet,一种可训练的基于深度神经网络的声码器，可生成高质量的语音波形，但是为了扩展其感受野，速度慢且复杂度高；WaveRNN, 另一种可训练的基于深度神经网络的声码器，可生成高质量高保真的语音波形，速度相较于WaveNet有提升，在使用折叠并且硬件较充足的条件下，合成速度较快；LPCNet, 是一种新提出的可使用CPU即可实现重建波形的vocoder,主要思想是，语音是线性信号和非线性信号的有机组合，而DSP（数字信号处理）技术足以胜任其中的线性信号运算，非线性信号的处理可以交给神经网络学习得到，这种声码器速度得到了极大的提升，有望于应用于移动端。

另有较为常用的声码器及其变种，如Multiband-WaveRnn, Parallel WaveNet, WaveGlow, FlowWaveNet, Parallel WaveGan, MelGan, MB-MelGAN

声学模型

语音合成一般需要进行前端处理，时长模型训练，声学模型训练，最后输出声学参数。对于端到端的语音合成系统而言，一般将大部分前端、时长模型和声学模型整合成了一个模型，直接建立输入文本与输出声学参数之间的映射关系。

声学参数的提取

语音合成的数据准备第一步，一般都是语音参数的提取。用于语音合成中的语音参数（声学参数）一般有MEL谱， MFCC, F0(基频)， pitch， voice/unvoice, BAP（一种非周期型特征？）等等。端到端的语音合成系统较多的使用MEL谱。

MEL 谱为例

一般的提取过程为：

语音信号预处理：预加重、分帧、加窗
对语音信号按帧使用短时傅里叶变换STFT, 得到短时幅度谱
生成MEL滤波器组，使用滤波器组对短时幅度谱滤波得到MEL谱

使用MEL谱训练声学模型

使用 <text, audio>对训练声学模型。对于汉语，text一般指的是带声调的拼音文本，audio一般指的是使用上述步骤得到的MEL谱。

声码器重建语音

MEL 谱为例

MEL谱转换成幅度谱
幅度谱使用G&L算法重建波形
去加重

griffin-lim 算法

算法思想：

griffin-lim重建语音信号需要使用到幅度谱和相位谱。而MEL谱当中是不含相位信息的，因此griffin-lim在重建语音博形的时候只有MEL谱可以利用，但是通过一些运算，我们可以利用帧与帧之间的关系估计出相位信息，从而重建语音波形。
这里的MEL谱可以看做是实部，而相位信息可以看做是虚部，通过对实部和虚部的运算，得到最终的结果。