语音特征提取技术——MFCC

本文介绍了语音特征提取技术MFCC的详细计算过程,包括输入样本音频的预加重、分帧加窗、傅里叶变换、功率谱计算、Mel频率滤波、Log对数能量计算、离散余弦变换等步骤,最终得到MFCC图像,常用于语音识别和说话人识别。
摘要由CSDN通过智能技术生成

语音识别和说话人识别中,常用的语音特征是基于Mel频率的倒谱系数(即MFCC)。MFCC参数是将人耳的听觉感知特性和语音的产生机制相结合。
人的发声由很多部位共同影响的结果,如嘴形、牙齿等因素,这种形状可以决定声音的输出。如果我们可以精确的确定形状,那么我们就可以对发出的因素进行科学的表示。

MFCC倒谱系数计算过程如下;

① 将信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换并得到其频谱。
② 求出频谱平方,即能量谱,并用M个Mel带通滤波器进行滤波;由于每一个频带中分量的作用在人耳中是叠加的。因此将每个滤波器频带内的能量进行叠
加,这时第k个滤波器输出功率谱)(’
kx。
③ 将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12~16个左右。

实现MFCC步骤:

① 输入样本音频

② 给样本音频预加重、分帧、加窗

首先,对波形图分帧。通常我们取20-40m为一帧的宽度,例如我们取40ms位一帧的宽度,对于一个44.1kHz采样的信号,一帧就包含0.040*44100=1764个采样点,帧移通常去帧宽的二分之一,也就是20ms,这样就允许没两帧之间有一半的overlap。这样一来,第一帧就是从第一个采样点到第1764个采样点,第二帧就是从第882个采样点到第2646个采样点…直到最后一个采样点,如果音频长度不能被帧数整除,在最后补0 。对于一个30s的音频文件,可以得到441

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值