语音信号处理基础(二)
语音信号的特性主要是指它的声学特性、时域波形、频谱特性以及语音信号的统计特性等。这些特性对应着各种语音信号特性分析图,如时域图、频谱图和语谱图等。
时域图
时域图中,语音信号直接用它的时间波形表示出来,通过观察时间波形可以看出语音信号一些重要特性。
(横轴时间,纵轴振幅)
上图是 “sou ke”的时域图,图中标明了时间及各个音节的起始位置。
由于在时域波形中各个音节间不好明显的分界,因此图中标出的某个音的起点只是粗略的。图中,清辅音[s][k]和元音[ou][e]这两类音的时间波形有很大区别,例如从A点开始的音节[s],以及从C点开始的[k]都是清辅音,它们的波形类似白噪音,振幅很小,没明显周期,而从B点开始的元音[ou]以及从D点开始的[e]都具有明显的周期性,且振幅较大,它们的周期对应的就是声带振动的频率。
语音信号属于短时平稳信号,一般认为在10~30ms内语音信号特性基本上是不变的,或是缓慢的,于是可截取一小段进行频谱分析。
频谱图
简单地说,信号可以通过傅立叶变换而分解成一个直流分量(也就是一个常数)和若干个(一般是无穷多个)正弦信号的和。每个正弦分量都有自己的频率和幅值,这样,以频率值作横轴,以幅值作纵轴,把上述若干个正弦信号的幅值画在其所对应的频率