语音分帧
不管是进行什么参数分析以及采用什么分析方法,都需要一些预先的处理,如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等,这些也是不可忽视的语音信号分析的关键技术。贯穿于语音分析全过程的是“短时分析技术”。
分帧一般采用交叠分段的方法,是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0-1/2。
分帧是用可移动的有限长度窗口进行加权的方法来实现的,就是用一定的窗函数ω(n)来乘s(n),从而形成加窗语音信号Sω(n)=s(n)×ω(n)。
窗函数的要求:
- 在时域因为是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截断效应;
- 在频域要有较宽的3dB带宽以及较小的边带最大值。以典型的矩形窗和汉明窗为例进行比较如下。
常用窗函数的比较:
- 窗函数的时域表达式:
- 窗函数的时域对比:
- 窗函数的频域对比:
窗函数的选择:
- 加窗函数时,应使窗函数频谱的主瓣宽度应尽量窄,以获得高的频率分辨能力;
- 旁瓣衰减应尽量大,以减少频谱泄漏(拖尾);
- 但二者矛盾需考虑折中,各种窗的差别主要在集中于主瓣的能量和分散在所有旁瓣的能量之比。
对语音信号的短时分析来说,窗口的形状是至关重要的。选用不同的窗口将使时域分析参数的短时平均能量的平均结果不同。
四种窗函数的频域特征:
我们可以看到汉明窗的主瓣宽度比矩形窗大1倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大1倍多。矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失;而汉明窗则相反,从这一方面来看,汉明窗比矩形窗更为合适。汉明窗与汉宁窗对比,起始处小突变,但是副瓣平坦,很好的折中了突变小和平坦度,更适合。
窗口的长度:
采样周期Ts = 1/fs, 窗口长度N和频率分辨率Δf之间存在以下关系:
当采样周期一定时,Δf随着窗口的宽度N的增大而减小,即频谱分辨率能够相应的提高,但是时间分辨率会降低;如果窗口取短,频率分辨率下降,而时间分辨率提高。因而二者是矛盾的,应该根据不同的需要选择合适的窗口长度。
有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含1~7个基音周期。然而不同人的基音周期变化很大,从女性和儿童的2ms到老年男子的14ms(即基音频率的变化范围为500~70Hz),所以N的选择比较困难。通常在8kHz取样频率下,N折中选择为80~160点为宜(即10~20ms持续时间)。
经过上述的处理过程,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序列。