mfcc概念 参数介绍

提取的特征最终以矩阵的形式存储,针对mfcc的矩阵维度(rowNum,colNum),colNum=13, rowNum为帧数,与音频时长有关。
例如,音频时长5.68s,频率16k,提取帧数应该是568,但kaldi返回的是565,这与kaldi中处理不足以分帧的剩余数据的方式有关,kaldi目前这种处理方式是兼容HTk工具的。
标准情况下,帧长25ms(时间窗window size=25ms,即一帧长度),帧移10ms(帧移frame shift=10ms)。
例如,频率为16k的1s音频,在window size=25ms,frame shift=10ms下,理论上,提取的帧数frame number为1x1000ms/10ms=100,即mfcc的特征矩阵维度(100,13)。如果不进行特征提取,则音频是16000个数据点,一个window size大小或一帧有(16000/1000ms)x25ms=400个数据,通常音频数据很多很大,直接用原生raw数据处理非常麻烦,费时等等,数据不具有代表性,这也是进行特征提取的原因,特征提取后,一个window size大小有13个数据,替代了400个数据,这13个数据是具有代表性特征的数据,可以很好得表现之前400个数据,这样就解决了直接使用raw数据的问题。
mfcc特征13维和39维的理解:在mfcc特征提取这块,经常会看到13、39这两个维数,不仔细研究它,就容易懵。13,即numcep=13,倒频谱的数量。这13个数据描述了一帧语音信号的功率谱包络信息,属于静态特征。但是语音也需要帧之间的动态变换信息,比如mfcc随
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值