STFT（短时傅里叶变换）音频特征提取，用于语音识别 python

最新推荐文章于 2024-05-25 14:26:37 发布

人间兵库saleng

最新推荐文章于 2024-05-25 14:26:37 发布

阅读量2.6w

点赞数 32

文章标签： STFT短时傅里叶变换 ASR语音识别音频特征提取 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42815385/article/details/89095135

版权

在各种音频相关的任务中，不管用什么模型或网络，得到所需的音频特征肯定是必要的一步。下面简单说一下STFT特征

一、原始信号
在说STFT之前，先说一下读入的原始信号，图像是在XY二维上描述的像素点的集合，相应的，原始音频只需要t一维上描述，从音频文件中读取出来的原始语音信号是一个一维数组，长度是由音频长度和采样率决定，比如采样率Fs为16KHz，表示一秒钟内采样16000个点，这个时候如果音频长度是10秒，那么raw waveform中就有160000个值，值的大小通常表示的是振幅。

二、STFT
1.概念——STFT短时傅里叶变换：STFT短时傅里叶变换，实际上是对一系列加窗数据做FFT。有的地方也会提到DCT（离散傅里叶变换），而DCT跟FFT的关系就是：FFT是实现DCT的一种快速算法。

2.概念——声谱图：对原始信号进行分帧加窗后，可以得到很多帧，对每一帧做FFT（快速傅里叶变换），傅里叶变换的作用是把时域信号转为频域信号，把每一帧FFT后的频域信号（频谱图）在时间上堆叠起来就可以得到声谱图。

3.FFT有个参数N，表示对多少个点做FFT，如果一帧里面的点的个数小于N就会zero-padding到N的长度。每个点对应一个频率点，某一点n（n从1开始）表示的频率为Fn=(n−1)∗Fs/N，第一个点（n=1，Fn等于0）表示直流信号，最后一个点N的下一个点（实际上这个点是不存在的）表示采样频率Fs。

4.FFT后我们可以得到N个频点，比如，采样频率为16000

最低0.47元/天解锁文章

人间兵库saleng

关注

32
点赞
踩
143

收藏

觉得还不错? 一键收藏
3
评论
STFT（短时傅里叶变换）音频特征提取，用于语音识别 python

在各种音频相关的任务中，不管用什么模型或网络，得到所需的音频特征肯定是必要的一步。下面简单说一下STFT特征一、原始信号在说STFT之前，先说一下读入的原始信号，图像是在XY二维上描述的像素点的集合，相应的，原始音频只需要t一维上描述，从音频文件中读取出来的原始语音信号是一个一维数组，长度是由音频长度和采样率决定，比如采样率Fs为16KHz，表示一秒钟内采样16000个点，这个时候如果音频长度...
复制链接

扫一扫

人间兵库saleng CSDN认证博客专家 CSDN认证企业博客

码龄6年

13: 原创

26万+: 周排名

62万+: 总排名

16万+: 访问

: 等级

877: 积分

7: 粉丝

63: 获赞

32: 评论

214: 收藏

私信

关注

热门文章

最新评论

os.environ["CUDA_VISIBLE_DEVICES"] 问题
慕容清良: 纯纯无效debug
os.environ["CUDA_VISIBLE_DEVICES"] 问题
一只兔子乖又乖: 同款错误，代码最前端加了：os.environ["CUDA_VISIBLE_DEVICES"] = 'TRUE' 然后一直cuda：False，注释掉后就可以了
STFT（短时傅里叶变换）音频特征提取，用于语音识别 python
ZhengXinTang: 你好，博主，原文中的“最后一个点N的下一个点（实际上这个点是不存在的）表示采样频率Fs” 这里的最后一个点，对应的应该是采样频率的一半吧，即　Fs/2;
os.environ["CUDA_VISIBLE_DEVICES"] 问题
自毅: 你好，找到原因了吗
os.environ["CUDA_VISIBLE_DEVICES"] 问题
CSU迦叶: CUDA_DEVICE_ORDER是环境变量吧，可以直接export CUDA_DEVICE_ORDER = 0,1,2,3

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。