MFCC和语谱图的关系


链接:https://www.zhihu.com/question/370985747/answer/1046843830

语谱图一般口语上说的是语音的log谱特征,就是你用audition或者Audacity看到的横轴是时间,纵轴是频域的图像。简单看一下语音特征的提取过程就可以知道这两者之间的关系了:

  1. 对语音序列做STFT,其中包括分帧,加窗和对每一帧的DFT变换,一般在语音识别里面会在加窗之后加一步预加重,输出的结果是复数(DFT的原因)。
  2. STFT的结果取模称为线性谱,再加log称为log谱,此处对应语谱图的概念。
  3. 对线性谱做mel滤波,即乘上一组mel滤波系数(就是一组三角滤波器,放大了低频的成分),结果称为filter bank(fbank)特征,一般这一步单独拿来用的话也会加上log,称为log fbank特征。
  4. MFCC特征就是对log fbank特征做DCT变换进行去相关之后的结果,实际操作也就是成一个DCT变换矩阵。

所以中间就是存在一个mel滤波的概念,从log谱是可以转到MFCC特征的(求一个exp,再做两个线性变换就行),此外,DCT变换是可逆的,所以MFCC和fbank特征也可以进行相互转换,但是从谱特征到fbank的过程不行的(滤波组矩阵不可逆),这一点清楚就行。


 

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值