信号处理——梅尔滤波器(MFCC)
一、概述
在语音识别(Speech Recognition)和话者识别(Speaker Recognition)方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients,简称MFCC)。
梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:
Mel(f)=2595∗lg(1+f/700)Mel(f)=2595∗lg(1+f/700)
式中f为频率,单位为Hz。下图为Mel频率与线性频率的关系:
二、基本流程
1. 预加重
预加重处理其实是将语音信号通过一个高通滤波器:
式中的值介于0.9-1.0之间,我们通常取0.97。预加重的目的是提升高频部