(done) 声音信号处理基础知识(6) （How to Extract Audio Features）

shimly123456

已于 2024-09-22 13:04:53 修改

阅读量389

点赞数 5

分类专栏：声音信号处理基础知识文章标签：声音

于 2024-09-22 01:14:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shimly123456/article/details/142427760

版权

声音信号处理基础知识专栏收录该内容

14 篇文章 0 订阅

订阅专栏

参考：https://www.youtube.com/watch?v=8A-W1xk7qs8&t=2s

先复习之前分类的声学特征
在这里插入图片描述

时域特征流水线
在这里插入图片描述

如下是 441Khz 下一个采样点播放的时间。这比人类耳朵分辨率(10ms)还低。
所以，把多个采样点组合成一个 frame 的原因有，这是一个人类可识别的 audio chunk
在这里插入图片描述

还有一点是，frame 包含的采样点通常是 2 的幂次方。原因是：这个数量可以加快傅里叶变换等计算的速度
经典的采样点数量是 256 ~ 8192
下面有一个公式，能计算 1 frame 持续时长
在这里插入图片描述

时域特征流水线经过补充如下
在这里插入图片描述

频域特征需要在时域特征做了 framing 后，使用 FFT 转为频域特征。
在这里插入图片描述

FFT 有一个问题：频谱泄露 spectral leakage
问题发生原因：我们处理的信号的长度往往不是信号周期的整数倍
在这里插入图片描述
还有一个问题：采样信号的末端，在两段信号连接后并不连续

做 FFT 时，这种末端不连续会出现很多次，在频谱里看起来就是多了不存在的高频部分

频谱泄露现象如下图
在这里插入图片描述

解决方案：加窗函数
每个 frame 加一个窗，消除 frame 两端的样本点，随后重叠，产生一个周期信号
在这里插入图片描述

经典窗函数，汉明窗，两端瘦，中间肥
在这里插入图片描述

应用起来如下，每个样本点 k，处理后的信号是 s(k) x w(k)
在这里插入图片描述
一个 frame 处理后的信号如下

此时把这些信号连在一块，依然有些部分损失了，解决方案是把它们重叠在一起

所以，频域的特征流水线如下图，要加个汉明窗
在这里插入图片描述

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。