【语音识别】之梅尔频率倒谱系数(mfcc)及Python实现

本文详细介绍了梅尔频率倒谱系数(MFCC)的原理,包括mel滤波器的设计和作用,以及MFCC特征提取的过程。通过将语音信号分帧、傅里叶变换、应用mel滤波器、取对数和离散余弦变换,最终得到用于语音识别的特征。并提及了Python实现MFCC的实践。
摘要由CSDN通过智能技术生成

【语音识别】之梅尔频率倒谱系数(mfcc)及Python实现


语音识别系统的第一步是进行特征提取,mfcc是描述短时功率谱包络的一种特征,在语音识别系统中被广泛应用。

一、mel滤波器

每一段语音信号被分为多帧,每帧信号都对应一个频谱(通过FFT变换实现),频谱表示频率与信号能量之间的关系。mel滤波器是指多个带通滤波器,在mel频率中带通滤波器的通带是等宽的,但在赫兹(Hertz)频谱内mel滤波器在低频处较密集切通带较窄,高频处较稀疏且通带较宽,旨在通过在较低频率处更具辨别性并且在较高频率处较少辨别性来模拟非线性人类耳朵对声音的感知。
赫兹频率和梅尔频率之间的关系为:
F m e l = 1125 ln ⁡ ( 1 + f / 700 ) {F_{mel}} = 1125\ln (1 + f/700) Fmel=1125ln(1+f/700)

f = 700 ( e F / 1125 − 1 ) f = 700\left( { {e^{F/1125}} - 1} \right) f=700(eF/11251)
假设在梅尔频谱内,有 M M M个带通滤波器 H m ( k ) , 0 ≤ m &lt; M {H_m}\left( k \right),0 \le m &lt; M Hm(k),0m<M,每个带通滤波器的中心频率为 F ( m ) F(m) F(m)每个带通滤波器的传递函数为:
H m ( k ) = { 0 , k &lt; F ( m − 1 ) k − F ( m − 1 ) F ( m ) − F ( m − 1 ) , F ( m − 1 ) ≤ k ≤ F ( m ) F ( m + 1 ) − k F ( m + 1 ) − F ( m ) , F ( m ) ≤ k ≤ F ( m + 1 ) 0 , k &gt; F (

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值