MFCC特征使用方法总结

最新推荐文章于 2024-10-09 20:49:43 发布

YoungLittleT

最新推荐文章于 2024-10-09 20:49:43 发布

阅读量5.4k

点赞数 3

分类专栏： MFCC特征提取文章标签： MFCC

MFCC特征提取专栏收录该内容

5 篇文章 0 订阅

订阅专栏

学习笔记, 音乐检索, 音频类学习

MFCC特征使用方法总结

joanna 2017年11月27日

项目需要用到MFCC特征，关于MFCC的特征如何使用，一开始我很困惑。现在分享一些自己总结的常见的MFCC使用方法。欢迎评论补充。

假设一段语音，分为n帧，提取其12维MFCC特征
1. 每帧MFCC系数独立处理，每帧作为时序性进行处理[1]. 如用于语音识别，不同帧的MFCC构成了一个序列，将观测的序列逐帧输入HMM模型中[6]。(n*12)
2. 每帧(这里应该是每一个语音单元，单词、音素等)对应相应维MFCC系数平均值[2]. (1*12)

3. 对一段语音的MFCC特征矩阵(n*12)进行（K-means）降维，如一段语音降维成k个MFCC特征向量进行表示[3]。(k*12)

4. 用于说话人识别，每一帧进行处理，用动态时间规整 DTW算法，逐帧计算相应MFCC系数之间的距离[4]。 (n*12)
5. 一段语音，求得序列的MFCC统计特征，特征序列可以用序列的统计特征来表述，以达到将二维的系数矩阵降维成一维的特征向量[5] (n*12)

[1] 于明,袁玉倩,董浩,王哲. 一种基于MFCC和LPCC的文本相关说话人识别方法[J]. 计算机应用,2006,(04):883-885.
[2] 胡赣. 基于特征组合的中医声诊客观化研究[D].华东理工大学,2014.
[3] 余建潮,张瑞林. 基于MFCC和LPCC的说话人识别[J]. 计算机工程与设计,2009,30(05):1189-1191.
[4] 于明,袁玉倩,董浩,王哲. 一种基于MFCC和LPCC的文本相关说话人识别方法[J]. 计算机应用,2006,(04):883-885.
[5] 韩一,王国胤,杨勇. 基于MFCC的语音情感识别[J]. 重庆邮电大学学报(自然科学版),2008,(05):597-602.
[6] https://www.cnblogs.com/tornadomeet/p/3276753.html 11.27检索