语言处理之 mel spectrum，梅尔谱图，时域，频域

最新推荐文章于 2024-07-27 20:38:11 发布

才大难为用

最新推荐文章于 2024-07-27 20:38:11 发布

阅读量3.5k

点赞数 2

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/HeroIsUseless/article/details/112180345

版权

自然语言处理专栏收录该内容

40 篇文章 6 订阅

订阅专栏

不管是用传统的GMM模型，还是用机器学习中的SVM或神经网络模型，提取声音特征都是第一步。梅尔频谱和梅尔倒谱就是使用非常广泛的声音特征形式

傅里叶变换实质涉及的是频域函数和时域函数的转换。

如果时域是运动永不停止的，那么频域就是静止的。
正弦波是频域中唯一存在的波形，这是频域中最重要的规则，即正弦波是对频域的描述，因为频域中的任何波形都可用正弦波合成。频域图像，也就是俗称的频谱。

这个应该才是最正确的。傅里叶变换就是拆分出许多正弦波，也是说明为什么能将时域图像转化为频域图像。

相位谱

频谱只代表了一个正弦函数的幅值，而要准确描述一个正弦函数，我们不仅需要幅值，还需要相位，不同相位决定了波的位置，所以对于频域分析，仅仅有频谱（振幅谱）是不够的，我们还需要一个相位谱。
频谱的重点是侧面看，相位谱的重点则是从下面看。

怎么说呢？你理解就好。这里需要纠正一个概念：时间差并不是相位差。如果将全部周期看作2Pi或者360度的话，相位差则是时间差在一个周期中所占的比例。我们将时间差除周期再乘2Pi，就得到了相位差。

这个就是傅里叶变换：

声音信号本是一维的时域信号，直观上很难看出频率变化规律。如果通过傅里叶变换把它变到频域上，虽然可以看出信号的频率分布，但是丢失了时域信息，无法看出频率分布随时间的变化。为了解决这个问题，很多时频分析手段应运而生。短时傅里叶，小波，Wigner分布等都是常用的时频域分析方法。

短时傅里叶变换（STFT）是最经典的时频域分析方法。傅里叶变换（FT）想必大家都不陌生，这里不做专门介绍。所谓短时傅里叶变换，顾名思义，是对短时的信号做傅里叶变化。那么短时的信号怎么得到的? 是长时的信号分帧得来的。这么一想，STFT的原理非常简单，把一段长信号分帧、加窗，再对每一帧做傅里叶变换（FFT），最后把每一帧的结果沿另一个维度堆叠起来，得到类似于一幅图的二维信号形式。如果我们原始信号是声音信号，那么通过STFT展开得到的二维信号就是所谓的声谱图。

声谱图示意图

梅尔频谱和梅尔倒谱

声谱图往往是很大的一张图，为了得到合适大小的声音特征，往往把它通过梅尔标度滤波器组（mel-scale filter banks），变换为梅尔频谱。什么是梅尔滤波器组呢？这里要从梅尔标度（mel scale）说起。

梅尔标度，the mel scale，由Stevens，Volkmann和Newman在1937年命名。我们知道，频率的单位是赫兹（Hz），人耳能听到的频率范围是20-20000Hz，但人耳对Hz这种标度单位并不是线性感知关系。例如如果我们适应了1000Hz的音调，如果把音调频率提高到2000Hz，我们的耳朵只能觉察到频率提高了一点点，根本察觉不到频率提高了一倍。如果将普通的频率标度转化为梅尔频率标度，映射关系如下式所示：

这里写图片描述

则人耳对频率的感知度就成了线性关系。也就是说，在梅尔标度下，如果两段语音的梅尔频率相差两倍，则人耳可以感知到的音调大概也相差两倍。梅尔的原理懂了。人耳对低频音调的感知较灵敏，在高频时人耳是很迟钝的，梅尔标度滤波器组启发于此。

librosa库是python中的语音和信号处理的专业库，在梅尔频谱上做倒谱分析（取对数，做DCT变换）就得到了梅尔倒谱。

才大难为用

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
语言处理之 mel spectrum，梅尔谱图，时域，频域

不管是用传统的GMM模型，还是用机器学习中的SVM或神经网络模型，提取声音特征都是第一步。梅尔频谱和梅尔倒谱就是使用非常广泛的声音特征形式傅里叶变换实质涉及的是频域函数和时域函数的转换。如果时域是运动永不停止的，那么频域就是静止的。正弦波是频域中唯一存在的波形，这是频域中最重要的规则，即正弦波是对频域的描述，因为频域中的任何波形都可用正弦波合成。频域图像，也就是俗称的频谱。这个应该才是最正确的。傅里叶变换就是拆分出许多正弦波，也是说明为什么能将时域图像转化为频域图像。相位谱频谱只代
复制链接

扫一扫