语音信号处理-概念(二):幅度谱(短时傅里叶变换谱/STFT spectrum)、梅尔谱(Mel spectrum)【语音的深度学习主要用幅度谱、梅尔谱】【用librosa或torchaudio提取】

一、语音的深度学习使用哪种谱?

答:以“幅度谱”和“梅尔谱”为主,通常可以用librosa库或者torchaudio库进行提取。

梅尔谱:在幅度谱的基础上,乘以一个“梅尔变换”,得到80维度的梅尔谱。 这种谱的80个频率组更接近人耳的听觉感知范围。但是相应地,蕴含的语音信息比幅度谱要少一些。因此,在一些面向人类的语音任务中较为常用。

注意,深度学习中的梅尔谱大多数情况下指对数梅尔谱!! !

  • “幅度谱”的频率组中的频率以线性等间隔增加;10Hz、20Hz、30Hz、…
  • “梅尔谱”的频率组中的频率以对数间隔增加;10Hz、15Hz、17Hz、18Hz、…

在这里插入图片描述

  1. 从2015年深度学习广泛取得较好的效果以来,大多数语音任务普遍采用STFT(amp) 谱或者melspec作为训练输入。
  2. melspec在大多数论文中默认是取对数的,即使论文本身使用的单词是melspec,但 是实际上训练的时候,代码中会加上log ( ) 函数。
  3. STFT谱的特征维度可以随意,一般习惯使用1024、512、256维,但是较多的训练过程的melspec还是采用80维。

一般情况下设定参数如下:

  • 幅度谱:n_fft = 1024(n_dim = 513);
  • 梅尔
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值