mfcc学习记录

MFCC(梅尔频率倒谱系数)常用于语音识别,它通过模拟人耳听觉特性将Hz频率转换为Mel频率。提取流程包括预滤波、预加重、分帧、加窗、FFT、三角窗滤波、对数运算、DCT、谱加权、倒谱均值减和差分参数计算。MFCC的维度通常为12、13或39维,涉及语音的能量和动态特性。
摘要由CSDN通过智能技术生成

A

http://www.douban.com/note/324336892/

这个地方对mfcc各步骤有精简的讲解,关键是从原理上说明白了一些步骤。特复制之:

一,、概述

MFCC:Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的缩写。Mel(美尔)是主观音高的单位,而Hz(赫兹)则是客观音高的单位。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。

二、应用

MFCC已经广泛地应用在语音识别领域。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。

三、提取流程

MFCC参数的提取包括以下几个步骤:
 预滤波:CODEC前端带宽为300-3400Hz的抗混叠滤波器。
 A/D变换:8kHz的采样频率,12bit的线性量化精度。
 预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。
 分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。
 加窗:采用哈明

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值