1特征提取
1.1特征提取概述
- 输入采样率为16kHz的音频
- 计算一个音频文件中的总帧数(通常帧长25ms,帧移10ms)
- 提取数据,可选做dithering(加一点噪声避免出现log0)
- 预加重(如s’(t)= s(t) -0.97 s(t-1))和去除直流偏移
- 乘上窗函数,如Hamming窗
- 离散傅里叶变换FFT,并在每个频点(frequencybin)计算功率谱能量
- 计算每个梅尔滤波器的能量(23个部分重叠的三角滤波器)
- 计算对数能量,得到FBANK特征,常用于DNN-HMM的ASR系统
- 做IDFT变换(得到cepstrum),根据要求保留系数,常选择前12维MFCC系数作为特征向量(去除F0相关信息),再加上能量值,共13维。加上时间动态特性,即一阶、二阶导数,总计39维MFCC特征。因为上一步中计算得到的对数能量为实数且对称,这里离散傅里叶反变换IDFT等价于余弦变换DCT。
- 选做倒谱系数lifter(仅仅是比例变换,确保系数在合理范围内)
1.2特征提取脚本流程
#prod