什么是MFCC参数

最新推荐文章于 2023-02-28 17:11:57 发布

皮熊

最新推荐文章于 2023-02-28 17:11:57 发布

阅读量2.6k

点赞数

分类专栏：语音识别与语音合成

语音识别与语音合成专栏收录该内容

33 篇文章 1 订阅

订阅专栏

http://www.blogbus.com/pohai-logs/10578307.html

在语音识别工作中，我们最经常会遇到的特征就是MFCC参数。它的出现，仿佛让大家看了一种放之四海而皆准的特征，在不同的语音处理工作中都可以比较好的发挥其作用。

相比通过对人的发声机理的研究而得到的声学特征LPC，Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。由于充分模拟了人的听觉特性，而且没有任何前提假设，MFCC参数具有识别性能和抗噪能力，实验证明在汉语语音识别中MFCC性能明显优于LPCC参数。

MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。一般我们用到的MFCC有12维、13维(加入F0能量)、39维(13维的MFCC加上13维的一阶导和13维的二阶导)。在HTK中，39维MFCC参数用MFCC_0_D_A表示，0表示加上F0，D表示一阶导(differential coefficient)，A表示二阶导(accelerate coefficient)。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
什么是MFCC参数

在语音识别工作中，我们最经常会遇到的特征就是MFCC参数。它的出现，仿佛让大家看了一种放之四海而皆准的特征，在不同的语音处理工作中都可以比较好的发挥其作用。相比通过对人的发声机理的研究而得到的声学特征LPC，Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。