音频-特征提取：①幅度谱（短时傅里叶变换谱/STFT）、②梅尔频谱（mel-spectrogram）、③梅尔倒谱（MFCC）【在梅尔频谱上取对数，做DCT（离散余弦变换）变换，得梅尔倒谱】

u013250861

已于 2024-02-14 12:53:40 修改

阅读量3.3k

点赞数 2

分类专栏： Audio 文章标签：音视频深度学习人工智能

于 2022-07-16 00:43:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/125814572

版权

Audio 专栏收录该内容

43 篇文章 35 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

在这里插入图片描述

原始信号

从音频文件中读取出来的原始语音信号通常称为raw waveform，是一个一维数组，长度是由音频长度和采样率决定，比如采样率Fs为16KHz，表示一秒钟内采样16000个点，这个时候如果音频长度是10秒，那么raw waveform中就有160000个值，值的大小通常表示的是振幅。

一、幅度谱（spectrogram）/ STFT

声音信号是一维信号，直观上只能看到时域信息，不能看到频域信息。

通过傅里叶变换(FT)可以变换到频域，但是丢失了时域信息，无法看到时频关系。为了解决这个问题，产生了很多方法，短时傅里叶变换，小波等都是很常用的时频分析方法。

短时傅里叶变换(STFT)，就是对短时的信号做傅里叶变换。原理如下：对一段长语音信号，分帧、加窗，再对每一帧做傅里叶变换，之后把每一帧的结果沿时间维度堆叠，得到一张图（类似于二维信号），这张图就是声谱图。

了解本专栏

超级会员免费看

关注

2
点赞
踩
33

收藏

觉得还不错? 一键收藏
1
评论
音频-特征提取：①幅度谱（短时傅里叶变换谱/STFT）、②梅尔频谱（mel-spectrogram）、③梅尔倒谱（MFCC）【在梅尔频谱上取对数，做DCT（离散余弦变换）变换，得梅尔倒谱】

给定原始的音频信号，通过melspectrogram（）函数提取梅尔频谱，然后通过DCT离散余弦变换得到梅尔倒谱系数。Mel滤波器对应了频率提高之后人耳会迟钝的客观规律，所以Mel滤波器在人声的信号处理上有着广泛的使用，但是如果应用到非人声上，就会丢失很多高频信息。输入语音信号->预加重->分针->加窗->FFT（傅里叶变换）->Mel滤波器->对数运算->DCT(离散预先变换)->MFCC。这是MFCC（梅尔倒谱）的提取过程，而梅尔频谱则是经过Mel滤波器就直接输出的一个结果。..............
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。