语音方面的分帧信号处理基础知识

如果代码中分完帧以后语音出现了假设,一条语音的长度是112000,窗长320,窗移160, 出现的形状是8,2,699,161,分别代表batch_size,channel,time,frequency。8代表实际的意义是8条语音,2代表每一条语音有2个通道,699代表分了699帧,161代表每一帧的特征点。这样的话,实际上理解就是161代表了一帧,所以如果代码中操作最后一个维度的话,就代表是在一帧上进行操作的。

关于傅里叶变换以后为什么会是共轭对称的,数学上有严格证明,我自己的理解就是用欧拉公式(不能保证是对的,因为是自己的理解,我只是觉得好记,还不用数学证明。),

关于傅里叶变换的理解,这篇文章写的挺好的,会从三维的角度看变化。(87条消息) 信号频域分析的一点理解_beike-lucky的博客-CSDN博客_频域分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值