语音深度学习常用的特征:梅尔谱

Mel spectrogram 梅尔谱根据我们人类听觉的特性,我们对低频声音比较敏感,对高频声音没那么敏感所以当声音频率线性增大时,频率越高,我们越难听出差别,因此不用线性谱而是对数谱Mel谱包含三大特性:时域-频域信息感知相关的振幅信息感知相关的频域信息Mel谱的核心就是Mel-scale,一个对数尺度的对于频率感知线性变化的尺度提取Mel谱的方法:做STFT得到复数矩阵将幅度转成分贝(db) 问:如果这里在mel spectrogram里面就把幅度转成db了,那Log_me
摘要由CSDN通过智能技术生成

Mel spectrogram 梅尔谱

根据我们人类听觉的特性,我们对低频声音比较敏感,对高频声音没那么敏感

所以当声音频率线性增大时,频率越高,我们越难听出差别,因此不用线性谱而是对数谱

Mel谱包含三大特性:

  • 时域-频域信息
  • 感知相关的振幅信息
  • 感知相关的频域信息

Mel谱的核心就是Mel-scale,一个对数尺度的对于频率感知线性变化的尺度
在这里插入图片描述

提取Mel谱的方法:

  1. 做STFT得到复数矩阵
  2. 将幅度转成分贝(db) 问:如果这里在mel spectrogram里面就把幅度转成db了,
    那Log_mel_spectrogram跟它又有什么区别呢?
  3. 将频率转到mel-scale

step 3 : 先选择mel bands的数目,一个mel band就像一系列跟感知有关的频率

构造mel filter banks:

  • 将最低频率和最高频率转到mel尺度上
  • 在我们的频率范围内等距取到(# bands)个点,这些点是不同mel band的中心频率
  • 将我们取的点又转回Hertz
  • 将这些中心频率点(float)取整到临近的frequency bin
  • 生成三角滤波器

对语谱图使用mel filter banks

M = (# bands, framesize / 2 + 1)

Y =

  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值