一定时宽的语音信号,其能量的大小随时间有明显的变化。清音信号和浊音信号之间的能量差别相当显著。其中清音段(以清音为主要成份的语音段),其能量比浊音段小得多。因此,对语音的短时能量进行分析,可以描述语音的这种特征变化情况。定义短时能量为如式下面所示。
其中N为窗长。特殊地,当采用矩形窗时,可简化为如式所示。
也可以从另外一个角度来解释。令
则 可表示为如式所示。
可以理解为,首先语音信号各个样点值平方,然后通过一个冲击响应为h(n)的滤波器,输出为由短时能量构成的时间序列。
短时能量的计算直接受冲击响应的选择即窗函数的选择的影响。如果冲击响应的幅度是恒定的,它的序列长度N(即窗长)会很长,将其等效为非常窄的低通滤波器,这时冲击响应对 产生的平滑的作用比较明显,使短时能量基本没有很大的变化,将不能表现出语音的时变的特性。相反,如果冲击响应的序列长度过于小,等效窗就不能提供出够用的平滑,以导致语音的振幅在瞬时的变化的许多细节仍被留了下来,进而不能看出振幅包络变化的规律,一般我们要求窗长是几个基音周期的数量级。
图3.1为采样率8000kHZ,16位,单声道的一个语音信号(单词“earth”)在不同矩形窗长时的短时能量函数,我们会发现:语音信号的幅度变化在被短时能量所反映时,窗长的长短都有影响。
不同矩形窗长的短时能量函数
我们知道,单词earth前半部分是浊音,后半部分是清音。由以上分析结果可知,浊音部分的能量较之清音部分要大得多,而清音部分的能量相当小,几乎为零。
对语音信号进行短时能量函数运算,可实现以下三点应用:
(1)可用于区分清音段与浊音段。En值大对应于浊音段,En值小对应于清音段。
(2)可用于区分浊音变为清音或清音变为浊音的时间(根据En值的变化趋势)。
(3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点或终
止点)。无信号(或仅有噪声能量)时,En值很小,有语音信号时,能量显著增大。