梅尔频谱和梅尔倒谱的初次理解和使用

最新推荐文章于 2024-07-27 20:38:11 发布

大鱼不做程序猿

最新推荐文章于 2024-07-27 20:38:11 发布

阅读量4.1k

点赞数 3

分类专栏：语音文章标签：信号处理深度学习 python

本文链接：https://blog.csdn.net/qq_40703471/article/details/110142513

版权

本文介绍了音频特征提取中梅尔频谱和梅尔倒谱的概念及区别。通过librosa库，详细阐述了梅尔频谱（melspectrogram）和梅尔倒谱（MFCC）的提取过程，强调了梅尔滤波器在人声处理中的重要性，以及在非人声场景下可能的高频信息损失。理解两者差异对于音频特征提取至关重要。

摘要由CSDN通过智能技术生成

在音频的特征提取中，经常会用到梅尔频谱和梅尔倒谱
这里记录一下librosa.feature.melspectrogram和librosa.feature.mfcc的区别

首先这里给出两个API的官方定义

def melspectrogram(
    y=None,
    sr=22050,
    S=None,
    n_fft=2048,
    hop_length=512,
    win_length=None,
    window="hann",
    center=True,
    pad_mode="reflect",
    power=2.0,
    **kwargs,
):
y:输入时域下的音频信号。shape= （n，）
sr:采样频率
n_fft:FFT窗口个数，默认2048
hop_length:连续帧之间的采样数，默认512
window:使用加窗的类型，默认为汉宁窗
return:梅尔频谱


def mfcc(
    y=None, 
    sr=22050, 
    S=None, 
    n_mfcc=20, 
    dct_type=2, 
    norm="ortho", 
    lifter=0, 
    **kwargs
):
y:输入时域下的音频信号
sr:采样频率
n_mfcc:返回mfcc特征的数量
dct_type:DCT（离散余弦变换）的类型，默认为2
return：返回mfcc特征序列，这里主要设置sr和n_mfcc（你要提取特征的个数）

首先，返回不同，一个是梅尔频谱，一个是梅尔倒谱

输入语音信号->