mfcc概念参数介绍

最新推荐文章于 2022-03-07 11:29:21 发布

CRISTIANO Xusanduo

最新推荐文章于 2022-03-07 11:29:21 发布

阅读量2.8k

点赞数 1

文章标签：语音识别

本文链接：https://blog.csdn.net/shi_xin/article/details/118895620

版权

提取的特征最终以矩阵的形式存储，针对mfcc的矩阵维度(rowNum,colNum)，colNum=13, rowNum为帧数，与音频时长有关。
例如，音频时长5.68s，频率16k，提取帧数应该是568，但kaldi返回的是565，这与kaldi中处理不足以分帧的剩余数据的方式有关，kaldi目前这种处理方式是兼容HTk工具的。
标准情况下，帧长25ms（时间窗window size=25ms，即一帧长度），帧移10ms（帧移frame shift=10ms）。
例如，频率为16k的1s音频，在window size=25ms，frame shift=10ms下，理论上，提取的帧数frame number为1x1000ms/10ms=100，即mfcc的特征矩阵维度(100,13)。如果不进行特征提取，则音频是16000个数据点，一个window size大小或一帧有(16000/1000ms)x25ms=400个数据，通常音频数据很多很大，直接用原生raw数据处理非常麻烦，费时等等，数据不具有代表性，这也是进行特征提取的原因，特征提取后，一个window size大小有13个数据，替代了400个数据，这13个数据是具有代表性特征的数据，可以很好得表现之前400个数据，这样就解决了直接使用raw数据的问题。
mfcc特征13维和39维的理解：在mfcc特征提取这块，经常会看到13、39这两个维数，不仔细研究它，就容易懵。13，即numcep=13，倒频谱的数量。这13个数据描述了一帧语音信号的功率谱包络信息，属于静态特征。但是语音也需要帧之间的动态变换信息，比如mfcc随