基音频率检测
一、概念
何为基音周期?人在发音时,根据声带是否振动可以将语音信号分为清音和浊音两种。浊音携带大量的能量,因此又被称为有声语音,其在时域上有明显的周期性。而清音类似于白噪声,没有明显的周期性。发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串。这种声带振动的频率称为基音频率;相应的周期就称为基音周期。
基音频率与个人声带的情况有关,包括声带长短、薄厚、韧性、劲度和发音习惯,总的来说基音频率就是说话人的特征之一。而且基音频率还随着人的性别、年龄不同而有所不同。男性大概在70-200Hz,女性大概在200-450Hz之间。
二、检测方法
尽管基音周期在目前有非常多的方法,但这些方法都具有局限性,没有一种检测方法能够适用于不同的说话人、不同的要求环境,主要原因归纳为如下方面:
- 语音信号变化复杂,声门激励的波形并不是完全的周期脉冲串,语音的尾部也不具有声带振动的周期性,对有些清浊音的过渡帧很难判定其的周期性。
- 声道共振峰有时会影响激励信号的谐波结构。
- 在浊音语音段很难对每个基音周期的开始和结束位置进行精确的判断
- 语音信号常常混有噪声
- 基音频率变化范围大,从低音男声的70Hz到儿童女性的450Hz,接近3个倍频程给基音检测带来了一定的困难。
目前基音检测算法大致可以分为两大类:非基于事件检测方法和基于事件检测方法,事件指的是声门闭合。
非基于事件的检测方法主要有:自相关函数法、平均幅度差函数法、倒谱法等。非基于事件的检测方法是利用语音信号短时平稳性这一特点,先将语音信号分为长度一定的语音帧,然后对每一帧语音求基音周期。它的优点是:算法简单,运算量小,但缺点在于:无法检测帧内基音周期的非平稳变化,检测精度不高。
基于事件的检测方法主要有:小波变换、Hilbert-Huang变换。基于事件的检测方法是通过声门闭合时刻来对基音周期进行估计,而不需要对语音信号进行短时平稳假设。优点是:在时域和频域上有良好的局部特性,能跟踪基音周期的变化,并能将微小的基音周期变化检测出来,检测精度高。缺点是:计算量较大
三、估计一帧信号的基音频率
倒谱法
由于语音 x ( i ) x(i) x(i)是由声门脉冲激励 u ( i ) u(i) u(i)经声道响应 v ( i ) v(i) v(i)滤波而得,即
x ( i ) = u ( i ) ∗ u ( i ) x(i)=u(i)*u(i) x(i)=u(i)∗u(i)
设这三个量的倒谱分别为 x ^ ( i ) 、 u ^ ( i ) 、 v ^ ( i ) \widehat{x}(i)、\widehat{u}(i)、\widehat{v}(i) x
(i)、u
(i)、v
(i),则有:
x ^ ( i ) = u ^ ( i ) ∗ v ^ ( i ) \widehat{x}(i)=\widehat{u}(i)*\widehat{v}(i) x
(i)=u
(i)∗v
(i)
由于在倒谱域中 u ^ ( i ) 和 v ^ ( i ) \widehat{u}(i)和\widehat{v}(i) u
(i)和v
(i)是相对分离的,说明包含有基音信息的声脉冲倒谱可以与声道响应倒谱分离,因此从倒谱域分离 u ^ ( i ) 和 u ( i ) \widehat{u}(i)和u(i) u
(i)和u(i)。在计算出倒谱后,就在倒谱频率为 P m i n ∼ P m a