MFCC特征提取学习笔记

本文介绍了MFCC特征提取过程,包括预加重以增强高频信号,分帧利用语音的短时平稳性,加窗确保信号周期性,快速傅里叶变换实现时域到频域转换,Mel滤波模拟人耳听觉特性,以及离散余弦变换得到MFCC系数。
摘要由CSDN通过智能技术生成

MFCC特征提取学习笔记


做毕设的过程中接触到了语音识别,对MFCC特征提取的步骤有一些粗浅的理解,如有理解错误的地方,请前辈们指出。

  1. 预加重
    由于人在发声的过程中存在唇端辐射,会造成语音的高频信号比中频和低频信号弱。预加重的目的就是突出语音信号中高频部分的能量。预加重通过一个高通滤波器实现: H ( z ) = 1 − μ z − 1 H(z) = 1 - \mu z^{-1} H(z)=1μz1 μ \mu μ称作预加重系数,可以取0.9~1之间的值。
    高通滤波器可以使高于某一值的信号通过,而使低于临界值的信号被削弱或者阻隔,所以它最终的效果不仅突出了语音信号的高频部分,还提升了语音信号的信噪比。预加重前后的波形图中振幅得到突出的部分就是语音信号的高频部分,同时语音的背景噪声也得到了削弱。
    在这里插入图片描述
  2. 分帧
    分帧是为了利用语音信号的短时平稳性,即假设语音信号在足够短的时间内是平稳的。这里的图是取帧长25毫秒,帧移10毫秒进行分帧的结果图。帧长是指每一帧的长度,帧移是相邻帧起始点的间隔。这里帧与帧之间的重叠为15毫秒,超过了帧长的一半。

在这里插入图片描述
3. 加窗
由于下一步是快速傅里叶变换,而快速傅里叶变换要求信号具有周期性。分帧得到的信号首尾不连续,所以通过汉明窗(汉明窗可以使窗边界处信号平滑衰减)使信号首尾连续,可以被视作一个周期性的信号。由于信号首尾衰减意味着信息的丢失,分帧时帧与帧之间的重叠超过帧长的一半是为了弥补这一部分的信息损失。
汉明窗函数: ω ( x ) = { 0.54 − 0.46 cos ⁡ ( 2 π n N − 1 ) 0 ≤ n ≤ N − 1 1 others \omega(x) = \begin{cases} 0.54-0.46 \cos(\frac{2\pi n}{N-1})&0\leq n \leq N-1\\1&\text{others}\end{cases} ω(x)={ 0.540.46cos(N12πn)10nN1others

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值