waveform波形图(时域图)、spectrum(频谱图)、spectrogram(语谱图)、MFCC

人的气流(excitation)通过声道到嘴唇产生声音。唇齿舌的形状决定了发出怎样的声音,这个形状通过频谱图中的包络中显示出来。而MFCCs就是一种准确描述这个包络的一种特征。

一、waveform波形图(时域图)

在这里插入图片描述

示例1

示例2

 波形的横轴是时间,纵轴是振幅。当横轴的分辨率不高时,语音的波形呈现一个个三角形。这些三角形的轮廓称为波形的包络(envelopoe)包络的大小代表了声音的响度

二、spectrum(频谱图)

我们对上图的语音切片成帧(frame),对每帧进行短时傅里叶变换(short-time Fourier Transform),得到每帧语音的频谱 

示例1

示例2

频谱表示频率与能量的关系。频谱图有三种,其中对数振幅谱中各谱线的振幅都作了对数计算,所以其纵坐标的单位是dB(分贝)。这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的周期信号。

三、spectrogram(语谱图)

接下来,我们每帧的频谱图做一定变换后拼接起来。我们先将其中一帧语音的频谱通过坐标表示出来,现在我们将下方左图的频谱旋转90度。得到中间的图。然后用颜色表示强度,把这些幅度映射到一个灰度级表示,0表示黑,255表示白色。幅度值越大,相应的区域越黑。这样就得到了最右边的图(用颜色的深浅代替波形的大小)。那为什么要这样呢?为的是增加时间这个维度,这样就可以显示一段语音而不是一帧语音的频谱,而且可以直观的看到静态和动态的信息。

在这里插入图片描述

这样我们会得到一个随着时间变化的频谱图,这个就是描述语音信号的spectrogram声谱图。

在这里插入图片描述

 四、倒谱分析(Cepstrum Analysis)

下面是一个语音的频谱图。峰值就表示语音的主要频率成分,我们把这些峰值称为共振峰(formants),而共振峰就是携带了声音的辨识属性(就是个人身份证一样)。所以它特别重要。用它就可以识别不同的声音

  我们不仅要提取共振峰的位置,还要它们转变的过程。所以我们提取的是频谱的包络(Spectral Envelope)。这包络就是一条连接这些共振峰点的平滑曲线

      我们可以这么理解,原始的频谱由两部分组成:包络和频谱的细节。这里用到的是对数频谱,所以单位是dB。 这里的包络即是李琳山教授提到的,决定不同phemones的formant structure。而频谱的细节则是excitation(气流)导致的毛。那现在我们需要把这两部分分离开,这样我们就可以得到包络了。

  那怎么把他们分离开呢?也就是,怎么在给定log X[k]的基础上,求得log H[k] 和 log E[k]以满足log X[k] = log H[k] + log E[k]呢?为了达到这个目标,我们需要在频谱上做傅里叶变换就相当于逆傅里叶变换Inverse FFT (IFFT)。

我们先取对数把包络(formant strcuture) G(w)和细节(excitation) U(w)的乘法转为加法,再做DFT。我们发现包络U(w)集中在低频部分,G(w)集中在高频部分。于是我们得以将包络U(w)分离出来。

  那现在总结下倒谱(cepstrum)分析,它实际上是这样一个过程:

1)将原语音信号经过傅里叶变换得到频谱:X[k]=H[k]E[k];

只考虑幅度就是:|X[k] |=|H[k]||E[k] |;

2)我们在两边取对数:log||X[k] ||= log ||H[k] ||+ log ||E[k] ||。

3)再在两边取逆傅里叶变换得到:x[k]=h[k]+e[k]。

五、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)

    对于人类听觉感知的实验表明,人类听觉的感知只聚焦在某些特定的区域,而不是整个频谱包络。Mel频率分析就是基于人类听觉感知实验的。实验观测发现人耳就像一个滤波器组一样,它只关注某些特定的频率分量(人的听觉对频率是有选择性的)。也就说,它只让某些频率的信号通过,而压根就直接无视它不想感知的某些频率信号。但是这些滤波器在频率坐标轴上却不是统一分布的,在低频区域有很多的滤波器,他们分布比较密集,但在高频区域,滤波器的数目就变得比较少,分布很稀疏。人耳更愿意听低频的信号。
   梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上

   我们将频谱通过一组Mel滤波器就得到Mel频谱。公式表述就是:log X[k] = log (Mel-Spectrum)。这时候我们在log X[k]上进行倒谱分析:

1)取对数:log X[k] = log H[k] + log E[k]。

2)进行逆变换:x[k] = h[k] + e[k]。

      在Mel频谱上面获得的倒谱系数h[k]就称为Mel频率倒谱系数,简称MFCC。

 

参考链接:

语音信号处理之(四)梅尔频率倒谱系数(MFCC)_zouxy09的博客-CSDN博客

不同元音辅音在声音频谱的表现是什么样子? - 王赟 Maigo的回答 - 知乎 https://www.zhihu.com/question/27126800/answer/35376174

  • 34
    点赞
  • 94
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值