MFCC特征使用方法总结

学习笔记音乐检索音频类学习

MFCC特征使用方法总结

joanna2017年11月27日

项目需要用到MFCC特征,关于MFCC的特征如何使用,一开始我很困惑。现在分享一些自己总结的常见的MFCC使用方法。欢迎评论补充。

假设一段语音,分为n帧,提取其12维MFCC特征
1. 每帧MFCC系数独立处理,每帧作为时序性进行处理[1]. 如用于语音识别,不同帧的MFCC构成了一个序列,将观测的序列逐帧输入HMM模型中[6]。(n*12)
2. 每帧(这里应该是每一个语音单元,单词、音素等)对应相应维MFCC系数平均值[2]. (1*12)

3. 对一段语音的MFCC特征矩阵(n*12)进行(K-means)降维,如一段语音降维成k个MFCC特征向量进行表示[3]。(k*12)

4. 用于说话人识别,每一帧进行处理,用动态时间规整 DTW算法,逐帧计算相应MFCC系数之间的距离[4]。 (n*12)
5. 一段语音,求得序列的MFCC统计特征,特征序列可以用序列的统计特征来表述,以达到将二维的系数矩阵降维成一维的特征向量[5] (n*12)

[1] 于明,袁玉倩,董浩,王哲. 一种基于MFCC和LPCC的文本相关说话人识别方法[J]. 计算机应用,2006,(04):883-885.
[2] 胡赣. 基于特征组合的中医声诊客观化研究[D].华东理工大学,2014.
[3] 余建潮,张瑞林. 基于MFCC和LPCC的说话人识别[J]. 计算机工程与设计,2009,30(05):1189-1191.
[4] 于明,袁玉倩,董浩,王哲. 一种基于MFCC和LPCC的文本相关说话人识别方法[J]. 计算机应用,2006,(04):883-885.
[5] 韩一,王国胤,杨勇. 基于MFCC的语音情感识别[J]. 重庆邮电大学学报(自然科学版),2008,(05):597-602.
[6] https://www.cnblogs.com/tornadomeet/p/3276753.html 11.27检索

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值