1 语音信号的处理基础
(1) 语音信号的产生模型
语音是由发生器官产生的。肺呼进空气,由气管呼出形成气流,气流经由声门,使声带振动,产生一系列离散脉冲,再经由咽腔和口腔,有时还经由鼻腔。随着发音的不同,口的张合程度不同,舌在口中位置的不同,气流经过各容积不断变化的空腔时产生许多共振,最后从口和鼻以声波的形式辐射出来。
因此,可将语音的频谱写成 F(w) = S(w) * V(w) * R(w),其中,F(w)是语音波f(t)的傅里叶变换;S(w)是激励源s(t)的傅里叶变换;V(w)是声道脉冲响应v(t)的傅里叶变换;R(w)是口的声辐射特性r(t)的傅里叶变换。据此构造出模拟人产生语音的“激励源/滤波器”模型,它由激励源、声道模型和辐射模型组成。当激励源为周期性脉冲时,产生浊音;当激励源是随机噪声时,产生清音。因此,我们就可以用激励源的线性或非线性组合通过声道和辐射模型来产生模拟语音。
(2) 语音信号的主要特性
声调是语音的基频随时间而高低升降的变化。汉语普通话在一个音节中就有四种变化:阴平,基频高而平;阳平,基频由中到高;上声,基频开始由中降至低,然后由低再升高;去声,基频先逐渐升到最高,再由最高降至最低。
汉语普通话四声,基频覆盖范围约为1.2~1.6个倍频程。男声基频约为100~300Hz,女声基频约为160~400Hz。
语音信号是一个瞬变的过程,是时变非平稳的。在一段很短的时间内(5-50ms),人的声带相对稳定,可近似认为这一小段时间内语音信号特征是平稳不变的。语音的频率范围约为340Hz~4kHz,让语音信号通过一个特定的时间窗,然后做短时傅里叶变换,得到短时频谱。
语音信号的统计特性可由它