ASR声学特征

声学特征类型

声学特征类型包括:Fbank (FilterBank) 特征、梅尔频率倒谱系数MFCCs (Mel-Frequency Cepstral Coefficeitns) 特征、PLP特征。目前更为常见的是使用Fbank和MFCCs特征,下表是两种特征的对比。

特征类型提取流程应用场景常见特征维度
Fbank分帧->傅立叶变换FFT->梅尔滤波组NN模型(NN-HMM/CTC/RNNT/LAS等)40/80
MFCCsFbank->离散余弦变换DCTGMM-HMM模型13

MFCCs是在Fbank的基础上做了离散余弦变化DCT (Discrete Cosine Transform),DCT的作用是去掉特征维间的相关性,由于NN模型能够对特征维间的相关性建模,所以在使用NN建模时,一般采用Fbank特征,使用传统GMM-HMM建模时常采用MFCCs特征。

Fbank特征提取

通过命令compute-fbank-feats提取Fbank特征,compute-mfcc-feats提取MFCCs特征,通过–config传入配置参数文件

compute-fbank-feats/compute-mfcc-feats --config featrue.conf 

其中配置文件featrue.conf文件如下,dither默认值为1,作用是在计算滤波器系数能量时加入随机扰动,防止能量为0的情况出现,会导致同一条音频的输出特征前后不一致。如果需要保持一致,要在配置文件中设置–dither=0。

--use-energy=false 
--num-mel-bins=40
--num-ceps=40
--low-freq=20
--high-freq=-400
--dither=1
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值