STFT和声谱图，梅尔频谱（Mel Bank Features）与梅尔倒谱（MFCCs）

最新推荐文章于 2024-07-27 20:38:11 发布

sc一号

最新推荐文章于 2024-07-27 20:38:11 发布

阅读量6.2w

点赞数 64

分类专栏：声音特征提取文章标签：语音信号处理声音特征提取

本文链接：https://blog.csdn.net/qq_28006327/article/details/59129110

版权

最近小编在做ASC（Acoustic Scene Classification）问题，不管是用传统的GMM模型，还是用机器学习中的SVM或神经网络模型，提取声音特征都是第一步。梅尔频谱和梅尔倒谱就是使用非常广泛的声音特征形式，小编与它们斗争已有一段时间了，在此总结一下使用它们的经验。

STFT和声谱图（Spectrogram）

声音信号本是一维的时域信号，直观上很难看出频率变化规律。如果通过傅里叶变换把它变到频域上，虽然可以看出信号的频率分布，但是丢失了时域信息，无法看出频率分布随时间的变化。为了解决这个问题，很多时频分析手段应运而生。短时傅里叶，小波，Wigner分布等都是常用的时频域分析方法。

短时傅里叶变换（STFT）是最经典的时频域分析方法。傅里叶变换（FT）想必大家都不陌生，这里不做专门介绍。所谓短时傅里叶变换，顾名思义，是对短时的信号做傅里叶变化。那么短时的信号怎么得到的? 是长时的信号分帧得来的。这么一想，STFT的原理非常简单，把一段长信号分帧、加窗，再对每一帧做傅里叶变换（FFT），最后把每一帧的结果沿另一个维度堆叠起来，得到类似于一幅图的二维信号形式。如果我们原始信号是声音信号，那么通过STFT展开得到的二维信号就是所谓的声谱图。
声谱图示意图

有很多工具方便地支持STFT展开，如果你是和小编一样是python爱好者，可以使用scipy库中的signal模块。如果你想做STFT分解的音频信号（wav文件）的路径存在path变量中，可通过下面的代码得到STFT数据。

import wavio
import numpy as np
from scipy import signal

最低0.47元/天解锁文章

sc一号

关注

64
点赞
踩
270

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录