【音频分析】短时傅立叶变换结果为啥是对称？每个结果对应的频率是多少？

Maxwellhang

已于 2022-03-25 10:24:56 修改

阅读量1.1k

点赞数 1

分类专栏：音频文章标签：算法傅立叶变换音频频谱

于 2022-03-11 22:57:48 首次发布

本文链接：https://blog.csdn.net/u011529752/article/details/123432599

版权

音频专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文详细探讨了短时傅立叶变换的性质，包括周期性、半对称性和频率单位计算。重点阐述了变换后的频谱分布规律，如前半窗与后半窗的实部对称性和虚部大小相反，以及如何通过调整频谱影响逆变换的效果。此外，还介绍了频率分辨率与采样宽度的关系，以及如何通过调整基频和强度影响逆变换的时域信号。

摘要由CSDN通过智能技术生成

传统艺能，又来搞傅立叶变换。
在短时傅立叶变换只有离散的一些频率，变换之后的频谱分布有哪些规律呢？

解释对称性

上公式，N是时间域的窗口采样数（即数组长度）
正变换
$\sum_{n=0}^{N-1}f(n)*e^{-i\frac{2\pi nk}{N}}$
周期性
$W_{N}^{n(k+N)} = e^{-i\frac{2\pi n(k+N)}{N}} = e^{-i\frac{2\pi nk}{N}} * e^{-i2\pi n} = W_{N}^{nk} \\ F(k) = F(k+N)$
周期性说明离散频谱的数量是有限的，或者说是有最小周期分辨率的。而这个数量是由时域的采样窗长度N决定的。

共轭性不讨论。
半对称性，当k在前半窗时：
$\sum_{n=0}^{N-1}f(n)*e^{-i\frac{2\pi n(N-k)}{N}} \\ = \sum_{n=0}^{N-1}f(n)*e^{-i\frac{2\pi n(-k)}{N}}*e^{-i2\pi n} \\ = \sum_{n=0}^{N-1}f(n)*e^{-i\frac{2\pi n(-k)}{N}}$
欧拉公式
$e^{ix} = cos(x) + i*sin(x) \\ e^{-i\frac{2\pi n(-k)}{N}} = cos(\frac{2\pi nk}{N}) + i*sin(\frac{2\pi nk}{N}) \\ e^{-i\frac{2\pi nk}{N}} = cos(\frac{2\pi nk}{N}) - i*sin(\frac{2\pi nk}{N})$
则可以对比
$\sum_{n=0}^{N-1}f(n)*cos(\frac{2\pi nk}{N}) - i*\sum_{n=0}^{N-1}f(n)*sin(\frac{2\pi nk}{N}) \\ F(N-k) =\sum_{n=0}^{N-1}f(n)*cos(\frac{2\pi nk}{N}) + i*\sum_{n=0}^{N-1}f(n)*sin(\frac{2\pi nk}{N}) \\ 0<= k <= N/2$
变换结果的前半窗和后半窗的实部相等，虚部大小相反。换言之，存储频谱的时候只需要前一半的长度即可。
还有一点就是，正常变换频谱前后各有一半能量，修改频谱的时候，要对称着修改才自然。(虽然把能量集中到一个上也能成功)

频率单位计算

从上面可以得知，基频只能到N/2
$\omega = \dfrac{2\pi k}{N} \\ = \dfrac{2\pi }{T} \\ T = \dfrac{N }{k} \\ f = \dfrac{k }{N}\\ ,k=0,1,2...,N/2-1$
显然，k=0的时候，周期是 $\infty$ ，频率是0，就是底音强度。
频谱散列，假设每格代表的时长是t秒，
$0,\dfrac{1 }{N*t},\dfrac{2 }{N*t}，...,0,\dfrac{N/2 }{N*t}.$
例如16K 10ms的窗，频谱为:
$0,\dfrac{1 }{0.01},\dfrac{2 }{0.01}，...,0,\dfrac{80 }{0.01}.\\ = 0,100,200,...,8000Hz$

在这里插入图片描述
k =1,k = 2的基频，即100Hz和200Hz。

频谱以百Hz为单位变化的话，在低频部分会相对不够细致。一个方法是加大采样宽度，当N=320时，20ms时
$0,\dfrac{1 }{0.02},\dfrac{2 }{0.02}，\dfrac{3 }{0.02}，...,0,\dfrac{160 }{0.02}.\\ = 0,50,100,150，...,8000Hz$
看出来上限都是8000Hz，而采样率是16000Hz，这也满足奈奎斯特采样定律。

逆变换

$\sum_{k=0}^{N-1} F[k]*e^{j*\frac{2\pi kn}{N}} \\ = \sum_{k=0}^{N/2 -1}[ (F[k].r + j*F[k].i)(cos(\frac{2\pi kn}{N}) +j*sin(\frac{2\pi kn}{N})) + \\ (F[N-k].r + j*F[N-k].i)(cos(\frac{2\pi (N-k)n}{N}) +j*sin(\frac{2\pi (N-k)n}{N}))] \\ 对称性：\\ = \sum_{k=0}^{N/2 -1}[ (F[k].r + j*F[k].i)(cos(\frac{2\pi kn}{N}) +j*sin(\frac{2\pi kn}{N})) + \\ (F[k].r - j*F[k].i)(cos(\frac{2\pi kn}{N}) - j*sin(\frac{2\pi kn}{N}))] \\ = \sum_{k=0}^{N/2 -1}[ (2*F[k].r * cos(\frac{2\pi kn}{N}) - 2*F[k].i *sin(\frac{2\pi kn}{N})) ] \\ = \sum_{k=0}^{N/2 -1}2A[k] * cos(\frac{2\pi kn}{N} - \theta[k])$
$A [k]$ 是频谱复平面模长， $\theta[k]$ 是复平面向量和x轴夹角（相位角），可以看出频域复平面的模长影响时域的实际能量，复平面相位角影响时域实际相位。

可以看出频谱的虚部和实部同时影响逆变换的效果。
逆变换之后理论时虚部为0，只有实部。

如果想只改变频谱中某分量的相位，则需要计算模长和角度之后，重新计算新相位；
只改变强度，则重新计算模长

第一基频移动 $\pi$
在这里插入图片描述
第一基频强度提升5倍
核心代码

 		real = (spec0_copy[1].real**2 + spec0_copy[1].imag**2)**0.5
        angle = np.arcsin(spec0_copy[1].imag/real) # [-pi/2,pi/2]

        real *= 5 # 修改实部或虚部
        angle += np.pi
        print(real,angle)
        spec0_copy[1] = complex(real*np.cos(angle), real*np.sin(angle)) #相位需要保持不变
        spec0_copy[-1] = complex(real*np.cos(angle), -real*np.sin(angle)) #相位需要保持不变
        rec_sig0_copy = np.fft.ifft(spec0_copy) # 逆变换