语音信号为从声道输入的速度波(输入信号),与声道形状(系统)卷积得到的声压波。语音信号的特征参数的提取正是对语音信号进行时域和频域的处理分离出声道形状(系统)的过程。声道形状(系统)也正是无论任何语音信号,只要每个字母或数字相同(它的发音就相同),它就在一定程度上相同的特征参量(频域共振峰(震荡的顶点)的包络)。
过程称为倒谱分析:(频域时对信号进行取对数处理)时域:卷积性;->fft频域:乘积性->梅尔滤波器组->频域取对数:乘积性—>加性;频率域幅度取对数->取逆变换(傅里叶变换),经低通滤波器取出包络可分离出系统,取出其中2到13个参量(一般)作为特征向量——共振峰的包络。
总体过程
1.信号的预处理,包括预加重(Preemphasis),分帧(Frame Blocking),加窗(Windowing)。假设语音信号的采样频率fs=8KHz.由于语音信号在10-30ms认为是稳定的,则可设置帧长为80~240点。帧移可以设置为帧长的1/2.
2.对每一帧进行FFT变换,求频谱,进而求得幅度谱。
3.对幅度谱加Mel