1. 音频分析
- 音频原始数据形式:8k16bitpcm;
- 频率范围:60HZ~3400HZ;
- 三角窗数量:15组;
- 提取filter bank特征,并观察特征分布特点;
- 进一步提取MFCC特征;
- 求取特征三阶差分并进行离线CMVN(cepstral mean and variance normalization,CMVN);
- 语音信号是一个非稳态、时变的信号,但是在“短时间”范围内可以认为语音信号是稳态、时不变的。在分帧过程中,往往设置在相邻两帧之间有一部分重叠。(帧移) 一般认为“短时间”范围为10~30ms,按采样频率为8kHZ来算,因此每一帧长为80-240个采样点,帧移为80个采样点。
2. Filter bank提取
3. MFCC提取
4. 三阶差分
代码:
MFCC
+qq:1095982611; 80% discount