- DFT
对于光学而言,使用RGB表示一个颜色比如,深绿色DarkGreen=(50,100,32)
⎡⎣⎢DarkGreen⎤⎦⎥=⎡⎣⎢RedGreenBlue⎤⎦⎥⎡⎣⎢5010032⎤⎦⎥
对于音频信号而言,信号有无数正弦波组成,可以写成如下形式,x为时域信号,X为频域信号,H为Hessian matrix:转置+共轭, K−1F also called basis/frame/dictionary
x=K−1⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢1sin(ωt)sin(12ωt)...sin(1Nωt)⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥HX
x=K−1FHX
2 masking: 遮掩效应,人耳结构(basilar membrane of cochlea)在分析信号频率组成时的分辨率引起。例如,一个声音由5000Hz和5001Hz组成。根据遮掩效应和STFT形成了基本的MP3原理。
3 STFT Short time Fourier Transform,最后变成了卷积,信号通过一组滤波器被分解为小段进行FT。
w˜(m)=w(−m)
ωk=2πk−1K
xk(m)=x(m)e−jωkm
X(n,ω)=∑m=−∞∞x(m)w(m−n)e−jωm=∑m=−∞∞xk(m)w(m−n)=∑m=−∞∞xk(m)w˜(n−m)=(xk∗w˜)(n))
Spectrogram 时频图
Sx(n,ω)=|X(n,ω)|2
4 测不准定理,Heisenberg Uncertainty Principal, A≥2:归一化后,时域频域都可以化为PDF和PMF,Sum分别为1,总和为2
5 窗函数原则
窗大小
语音≈20-30ms
音乐≈25-50ms
Overlap at least 50%
6 trade-off 平衡
7 谱估计 右上角为常用的频谱估计过程
Non-parametric:STFT直接通过FT得到频谱,但是有测不准原则
Parametric:根据模型估计参数得到结果,但是模型如果本身就是错的,结果就会毫无意义。
例:原始信号(蓝色)具有两个Peaks,使用非参数估计得到了正确的Peaks,但是进行参数估计时,使用的时只有一个Peak的模型,因此估计错误,将第二个Peak的能量分散成了噪声信号(黑色横线)。