(done) 声音信号处理基础知识(6) (How to Extract Audio Features)

参考:https://www.youtube.com/watch?v=8A-W1xk7qs8&t=2s


先复习之前分类的声学特征
在这里插入图片描述

时域特征流水线
在这里插入图片描述

如下是 441Khz 下一个采样点播放的时间。这比人类耳朵分辨率(10ms)还低。
所以,把多个采样点组合成一个 frame 的原因有,这是一个人类可识别的 audio chunk
在这里插入图片描述

还有一点是,frame 包含的采样点通常是 2 的幂次方。原因是:这个数量可以加快 傅里叶变换 等计算的速度
经典的采样点数量是 256 ~ 8192
下面有一个公式,能计算 1 frame 持续时长
在这里插入图片描述

时域特征流水线经过补充如下
在这里插入图片描述

频域特征需要在时域特征做了 framing 后,使用 FFT 转为频域特征。
在这里插入图片描述

FFT 有一个问题:频谱泄露 spectral leakage
问题发生原因:我们处理的信号的长度往往不是信号周期的整数倍
在这里插入图片描述
还有一个问题:采样信号的末端,在两段信号连接后并不连续
在这里插入图片描述
做 FFT 时,这种末端不连续会出现很多次,在频谱里看起来就是多了不存在的高频部分
在这里插入图片描述

频谱泄露现象如下图
在这里插入图片描述

解决方案:加窗函数
每个 frame 加一个窗,消除 frame 两端的样本点,随后重叠,产生一个周期信号
在这里插入图片描述

经典窗函数,汉明窗,两端瘦,中间肥
在这里插入图片描述

应用起来如下,每个样本点 k,处理后的信号是 s(k) x w(k)
在这里插入图片描述
一个 frame 处理后的信号如下
在这里插入图片描述
此时把这些信号连在一块,依然有些部分损失了,解决方案是把它们重叠在一起
在这里插入图片描述

所以,频域的特征流水线如下图,要加个汉明窗
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值