如何提取出一首歌曲的梅尔频谱
1.声谱图
如下图1一段声音信号直观地看起来是时间和能量的关系,在语音识别,音乐信息检索中常常关注的是声音中频率和能量的关系,即声谱图描述的就是频率和能量的关系。所以我们拿到一段音频需要先进行初步的处理,获得它的声谱图。具体的做法则是将声音信号分帧,然后对每一帧都用短时傅里叶变换处理,当然进行傅里叶变换之前还预先需要对声音信号进行预加重,加窗。
2.梅尔频谱
由于人耳对声音的感知不是线性的,人耳对声音的低频比对声音的高频更加敏感。所以常常需要将线性频谱转换到非线性的梅尔频谱。普通频率转换到梅尔频率的公式是 m = 2595 l o g 10 ( 1 + f 700 ) m=2595log_{10}(1+\frac f{700}) m=