MFCC特征使用方法总结
项目需要用到MFCC特征,关于MFCC的特征如何使用,一开始我很困惑。现在分享一些自己总结的常见的MFCC使用方法。欢迎评论补充。
假设一段语音,分为n帧,提取其12维MFCC特征
1. 每帧MFCC系数独立处理,每帧作为时序性进行处理[1]. 如用于语音识别,不同帧的MFCC构成了一个序列,将观测的序列逐帧输入HMM模型中[6]。(n*12)
2. 每帧(这里应该是每一个语音单元,单词、音素等)对应相应维MFCC系数平均值[2]. (1*12)
3. 对一段语音的MFCC特征矩阵(n*12)进行(K-means)降维,如一段语音降维成k个MFCC特征向量进行表示[3]。(k*12)
4. 用于说话人识别,每一帧进行处理,用动态时间规整 DTW算法,逐帧计算相应MFCC系数之间的距离[4]。 (n*12)
5. 一段语音,求得序列的MFCC统计特征,特征序列可以用序列的统计特征来表述,以达到将二维的系数矩阵降维成一维的特征向量[5] (n*12)
[1] 于明,袁玉倩,董浩,王哲. 一种基于MFCC和LPCC的文本相关说话人识别方法[J]. 计算机应用,2006,(04):883-885.
[2] 胡赣. 基于特征组合的中医声诊客观化研究[D].华东理工大学,2014.
[3] 余建潮,张瑞林. 基于MFCC和LPCC的说话人识别[J]. 计算机工程与设计,2009,30(05):1189-1191.
[4] 于明,袁玉倩,董浩,王哲. 一种基于MFCC和LPCC的文本相关说话人识别方法[J]. 计算机应用,2006,(04):883-885.
[5] 韩一,王国胤,杨勇. 基于MFCC的语音情感识别[J]. 重庆邮电大学学报(自然科学版),2008,(05):597-602.
[6] https://www.cnblogs.com/tornadomeet/p/3276753.html 11.27检索