声学特征类型
声学特征类型包括:Fbank (FilterBank) 特征、梅尔频率倒谱系数MFCCs (Mel-Frequency Cepstral Coefficeitns) 特征、PLP特征。目前更为常见的是使用Fbank和MFCCs特征,下表是两种特征的对比。
特征类型 | 提取流程 | 应用场景 | 常见特征维度 |
---|---|---|---|
Fbank | 分帧->傅立叶变换FFT->梅尔滤波组 | NN模型(NN-HMM/CTC/RNNT/LAS等) | 40/80 |
MFCCs | Fbank->离散余弦变换DCT | GMM-HMM模型 | 13 |
MFCCs是在Fbank的基础上做了离散余弦变化DCT (Discrete Cosine Transform),DCT的作用是去掉特征维间的相关性,由于NN模型能够对特征维间的相关性建模,所以在使用NN建模时,一般采用Fbank特征,使用传统GMM-HMM建模时常采用MFCCs特征。
Fbank特征提取
通过命令compute-fbank-feats提取Fbank特征,compute-mfcc-feats提取MFCCs特征,通过–config传入配置参数文件
compute-fbank-feats/compute-mfcc-feats --config featrue.conf
其中配置文件featrue.conf文件如下,dither默认值为1,作用是在计算滤波器系数能量时加入随机扰动,防止能量为0的情况出现,会导致同一条音频的输出特征前后不一致。如果需要保持一致,要在配置文件中设置–dither=0。
--use-energy=false
--num-mel-bins=40
--num-ceps=40
--low-freq=20
--high-freq=-400
--dither=1