在音频的特征提取中,经常会用到梅尔频谱和梅尔倒谱
这里记录一下librosa.feature.melspectrogram和librosa.feature.mfcc的区别
首先这里给出两个API的官方定义
def melspectrogram(
y=None,
sr=22050,
S=None,
n_fft=2048,
hop_length=512,
win_length=None,
window="hann",
center=True,
pad_mode="reflect",
power=2.0,
**kwargs,
):
y:输入时域下的音频信号。shape= (n,)
sr:采样频率
n_fft:FFT窗口个数,默认2048
hop_length:连续帧之间的采样数,默认512
window:使用加窗的类型,默认为汉宁窗
return:梅尔频谱
def mfcc(
y=None,
sr=22050,
S=None,
n_mfcc=20,
dct_type=2,
norm="ortho",
lifter=0,
**kwargs
):
y:输入时域下的音频信号
sr:采样频率
n_mfcc:返回mfcc特征的数量
dct_type:DCT(离散余弦变换)的类型,默认为2
return:返回mfcc特征序列,这里主要设置sr和n_mfcc(你要提取特征的个数)
首先,返回不同,一个是梅尔频谱,一个是梅尔倒谱
输入语音信号->