梅尔频谱和梅尔倒谱的初次理解和使用

在音频的特征提取中,经常会用到梅尔频谱和梅尔倒谱
这里记录一下librosa.feature.melspectrogram和librosa.feature.mfcc的区别

首先这里给出两个API的官方定义

def melspectrogram(
    y=None,
    sr=22050,
    S=None,
    n_fft=2048,
    hop_length=512,
    win_length=None,
    window="hann",
    center=True,
    pad_mode="reflect",
    power=2.0,
    **kwargs,
):
y:输入时域下的音频信号。shape= (n,)
sr:采样频率
n_fft:FFT窗口个数,默认2048
hop_length:连续帧之间的采样数,默认512
window:使用加窗的类型,默认为汉宁窗
return:梅尔频谱


def mfcc(
    y=None, 
    sr=22050, 
    S=None, 
    n_mfcc=20, 
    dct_type=2, 
    norm="ortho", 
    lifter=0, 
    **kwargs
):
y:输入时域下的音频信号
sr:采样频率
n_mfcc:返回mfcc特征的数量
dct_type:DCT(离散余弦变换)的类型,默认为2
return:返回mfcc特征序列,这里主要设置sr和n_mfcc(你要提取特征的个数)

首先,返回不同,一个是梅尔频谱,一个是梅尔倒谱

输入语音信号->

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
图、频谱中心、梅尔频谱梅尔频率倒系数是语音信号处理中常用的四个特征参数,它们也可以用于语音情感识别。 色图是一种将语音信号在时频域上表示的图像。色图能够反映出语音信号在不同频率上的能量分布情况,不同的情感状态在色图上有不同的表现。例如,高兴的语音在色图上通常具有较高的频率能量分布,而悲伤的语音则具有较低的频率能量分布。因此,通过对色图的分析,可以识别出不同情感状态下的语音信号。 频谱中心是指语音信号频谱的中心频率,它能够反映出语音信号的音调。不同的情感状态在频谱中心上也有不同的表现。例如,高兴的语音频谱中心通常较高,而悲伤的语音频谱中心则较低。因此,通过对频谱中心的分析,也可以识别出不同情感状态下的语音信号。 梅尔频谱是一种将语音信号在频域上表示的图像,它与频率的对数相关,能够更好地表示人耳对音高的感知。不同的情感状态在梅尔频谱上有不同的表现。例如,高兴的语音在梅尔频谱上通常具有较高的能量分布,而悲伤的语音则具有较低的能量分布。因此,通过对梅尔频谱的分析,也可以识别出不同情感状态下的语音信号。 梅尔频率倒系数是一种将语音信号在频域上表示的特征参数。它通过将梅尔频谱取对数并进行倒变换得到。梅尔频率倒系数能够反映出语音信号在不同频率上的能量分布和声音的谐波特征。不同的情感状态在梅尔频率倒系数上也有不同的表现。例如,高兴的语音在梅尔频率倒系数上通常具有较高的能量分布,而悲伤的语音则具有较低的能量分布。因此,通过对梅尔频率倒系数的分析,也可以识别出不同情感状态下的语音信号。 综上所述,色图、频谱中心、梅尔频谱梅尔频率倒系数是语音情感识别中常用的特征参数,它们能够反映出语音信号在不同频率上的能量分布、音调、谐波特征等方面的信息,为情感识别算法提供了有效的特征参数。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值