音频变调技术

cpongo8

于 2017-05-25 16:22:00 发布

阅读量4.2k

点赞数 3

原创文章，不得转载哦!

本文链接：https://blog.csdn.net/cpongo8/article/details/80480146

版权

今天看到群里有人讨论这个问题，记录一下。

主要内容转自：http://www.cnblogs.com/welen/p/3782896.html

变调和变速原理

自然语音的产生可以简化为图2-1模型，激励源出来的声门波信号与声道模型进行卷积，最后通过嘴唇辐射模型产生语音。其中，激励源决定说话人的基频的大小，即音调的高低。声道模型反映“润色”的频谱信息，具体的讲，共振峰决定了语义信息，谐波分布决定了音色，单位时间的音节数决定了语速。

图2-1 语音产生模型

下面将根据语音产生模型来阐述变速变调的基本原理。

变速变调的改变可以包括变速不变调和变调不变速两个部分。

语音变速不变调是指保持音调和语义保持不变，语速变快或变慢^[28]。该过程表现为语谱图在时间轴上如手风琴般压缩或者扩展。那也就是说，基频值几乎不变，对应于音调不变；整个时间过程被压缩或者扩展，声门周期的数目减小或者增加，即声道运动速率发生改变，语速也随之变化。对应于语音产生模型，激励和系统经历与原始发音情况几乎相同的状态，但持续时间相比原来或长或短^[29]。

严格地讲，基频和音调是两个不同的概念，基频是指声带振动的频率，音调是指人类对基频的主观感知，但是两者变化基本一致，即基频越高，音调越高，基频越低，音调越低，音调是由基频决定的^[30]。因此，语音变调不变速就是指改变说话人基频的大小^[44]，同时保持语速和语义不变，即保持短时频谱包络(共振峰的位置和带宽)和时间过程基本不变^[31]。对应于语音产生模型，变调改变了激励源；声道模型的共振峰参数几乎不变，保证了语义和语速不变。

综上所述，变速改变声道运动速率，力求保持激励源不变；变调改变激励源，力求保持声道的共振峰信息不变。但是声源和声道不是相互独立的，在改变声源时，必然也会非线性的影响声道，同样地，改变声道时也会或多或少的影响声源，两者之间相互影响，相互作用。

变调不变速方法

变调的方法也可以分为三类：时域法、频域法、参量法。

时域法中，Crochiere等人于1983年提出了重采样的方法^[42]，该方法是实现变速变调最简单、最常用的方法之一。

假设重采样因子为P/Q，其中，P为上采样因子，Q为下采样因子。上采样过程就是往原始信号相邻两点间内插P-1个采样点，这样使得基音周期变为原来的P倍，频谱压缩为原来的1/P倍，时长变为原来的P倍，即基频变为原来的1/P倍，音调降为原来的1/P倍，语速变为原来的1/P倍。

同样地，下采样过程就是每隔Q-1个点进行抽取，这样会使得基音周期长度为原来的1/Q倍，频谱扩展为原来的Q倍，时长变为原来的1/Q倍，即基频变为原来的Q倍，音调升为原来的Q倍，语速变为原来的Q倍。

综合上述两个过程，通过P/Q倍的重采样后，保持播放速率不变，重采样语音语速和音调都变为原来的Q/P倍^[43]。

为了实现变调不变速，可以通过各种变速不变调处理与重采样相结合的方法^[44]。如图2-4所示，变速不变调处理使语速变为原来的P/Q倍，得到输出信号y(n)，然后对y(n)进行P/Q倍重采样处理，这样就得到语速正常，音调变为原来Q/P倍的最终输出语音z(n)。

频域法中比较简单的处理就是直接对信号频谱进行插值或者抽取，实现各频率分量的扩展或者压缩。国内的研究者李力利、张晓蕊等人分别对频域的插值和抽取的方法进行了研究和扩展，这种方法的缺点在于：内插会引入不需要的频率，从而大大影响音质，变调后会有部分失真^[43]。另外，比较典型的方法是利用短时傅里叶变换原理，估计出短时帧的瞬时频率，再乘以伸缩系数进行频谱伸缩^[44]。

参量法中最具代表性的方法是基于正弦模型原理。正弦模型^[45]是由Quatier等人在1980年提出，它是目前应用最广泛的语音模型。该模型将信号看作是一系列随时间变化的正弦信号叠加。很显然，时间规整后瞬时频率不变，保证了音调不变，但是时间过程扩展为原来的倍。很显然，变调不变速处理后，各个频率成分随系数拉伸或者收缩。对应于浊音，为随时间变化的第一谐波，即基频；其他频率成分对应于其它谐波。

由上分析可知，基于正弦模型的变调方法最大难点在于提高谐波分析的精确度，降低参数估计的复杂度^[46]。