如果代码中分完帧以后语音出现了假设,一条语音的长度是112000,窗长320,窗移160, 出现的形状是8,2,699,161,分别代表batch_size,channel,time,frequency。8代表实际的意义是8条语音,2代表每一条语音有2个通道,699代表分了699帧,161代表每一帧的特征点。这样的话,实际上理解就是161代表了一帧,所以如果代码中操作最后一个维度的话,就代表是在一帧上进行操作的。
关于傅里叶变换以后为什么会是共轭对称的,数学上有严格证明,我自己的理解就是用欧拉公式(不能保证是对的,因为是自己的理解,我只是觉得好记,还不用数学证明。),
关于傅里叶变换的理解,这篇文章写的挺好的,会从三维的角度看变化。(87条消息) 信号频域分析的一点理解_beike-lucky的博客-CSDN博客_频域分析