语音信号的短时傅里叶分析
文章目录
概述
-
标准傅里叶分析在信号处理中具有非常重要的作用,适用于周期瞬变或平稳随机信号的分析:
x ( e j ω ) = ∑ n = − ∞ ∞ x ( n ) e − j ω n x\left(e^{j\omega}\right)=\sum\limits_{n=-\infty}^{\infty}x\left(n\right)e^{-j\omega n} x(ejω)=n=−∞∑∞x(n)e−jωn -
语音信号是一个非平稳过程,所以标准傅里叶分析不能直接进行。
-
因语音信号具有短时特性,所以可以采用短时傅里叶变换,即有限长度的傅里叶变换,相应的谱成为“短时谱”。
短时傅里叶变换
-
短时傅里叶变换定义
X n ( e j ω ) = ∑ m = − ∞ ∞ x ( m ) w ( n − m ) e − j ω m X_n\left(e^{j\omega}\right)=\sum\limits_{m=-\infty}^{\infty}x\left(m\right)w\left(n-m\right)e^{-j\omega m} Xn(ejω)=m=−∞∑∞x(m)w(n−m)e−jωm- 短时傅里叶分析是窗选语音信号的标准傅里叶变换。
- 它有两个自变量:既是关于时间 n n n的离散函数,又是关于角频率 w w w的连续函数。
-
X n ( e j ω ) = ∑ m = − ∞ ∞ x ( m ) w ( n − m ) e − j ω m X n ( e j 2 π k N ) = ∑ m = − ∞ ∞ x ( m ) w ( n − m ) e − j 2 π k m N 0 ≤ k ≤ N − 1 X_n\left(e^{j\omega}\right)=\sum\limits_{m=-\infty}^{\infty}x\left(m\right)w\left(n-m\right)e^{-j\omega m} \\X_n\left(e^{j\frac{2\pi k}{N}}\right)=\sum\limits_{m=-\infty}^{\infty}x\left(m\right)w\left(n-m\right)e^{-j\frac{2\pi km}{N}}\qquad 0\leq k\leq N-1 Xn(ejω)=m=−∞∑∞x(m)w(n−m)e−jωmXn(ejN2πk)=m=−∞∑∞x(m)w(n−m)e−jN2πkm0≤k≤N−1
注释:
- 当n固定不变时,它们是序列 w ( n − m ) x ( m ) ( − ∞ < m < ∞ ) w\left(n-m\right)x\left(m\right)\left(-\infty <m<\infty\right) w(n−m)x(m)(−∞<m<∞)的标准傅里叶变换或标准的离散傅里叶变换;
- 当 ω \omega ω或k固定时, X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn(ejω)或 X n ( e k ) X_n\left(e^k\right) Xn(ek)看作时时间n的函数,他们是信号序列和窗口序列的卷积,此时窗口的作用相当于一个滤波器。
标准傅里叶变换 :
-
窗函数的作用:窗函数形状和大小对短时傅里叶变换特性有影响。
-
窗口序列的作用:
X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn(ejω)是通过将 w ( n − m ) w\left(n-m\right) w(n−m)与 x ( m ) x\left(m\right) x(m)在 ( − ∞ < m < ∞ ) \left(-\infty <m<\infty\right) (−∞<m<∞)区间内的傅里叶变换进行卷积得到的。即 X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn(ejω)相当于对信号谱与窗函数谱的卷积。
语音加窗后相当于突出了n附近的波形而对其他波形加以削弱。
窗函数应具有的特性:
- 频率分辨率高,即主瓣狭窄、尖锐;
- 频谱泄露少,即旁瓣衰减大。
-
窗口宽度的影响:
Δ f = 1 N T \Delta f = \frac{1}{NT} Δf=NT1频率分辨率 Δ f \Delta f Δf随窗口宽度N的增加而提高,但时间分辨率降低。
-
窗形状对短时傅里叶变换的影响:
矩形窗----主瓣窄,旁瓣衰减慢;
海明窗----主瓣宽,旁瓣衰减快。
-
窗宽对短时傅里叶变换的影响:
窗宽长----频率分辨率高,能看到频谱快变化;
窗宽窄----频率分辨率低,看不到频谱的快变化。
-
短时傅里叶的取样率
时域取样率
X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn(ejω)的取样率至少为2B才不致混叠,而B由 w ( n ) w\left(n\right) w(n)的傅里叶变换 W ( e j ω ) W\left(e^{j\omega}\right) W(ejω)的第一个零点位置决定,它与窗的形状和长度有关。
经推算:
2
B
=
{
2
f
s
N
直角窗
4
f
s
N
海明窗
2B= \left\{ \begin{array}{rcl} \frac{2f_s}{N} & & {直角窗}\\ \frac{4f_s}{N} & & {海明窗}\\ \end{array} \right.
2B={N2fsN4fs直角窗海明窗
频域取样率
因为
X
n
(
e
j
ω
)
X_n\left(e^{j\omega}\right)
Xn(ejω)是关于
ω
\omega
ω的周期为
2
π
2\pi
2π的周期函数,只讨论
2
π
2\pi
2π范围,等间隔取样,各取样频率值为:
ω
k
=
2
π
k
L
k
=
0
,
1
,
⋯
,
L
−
1
L
为取样点数
\omega_k=\frac{2\pi k}{L}\qquad k=0,1,\cdots,L-1\qquad\qquad L为取样点数
ωk=L2πkk=0,1,⋯,L−1L为取样点数
在频域内对
X
n
(
e
j
ω
)
X_n\left(e^{j\omega}\right)
Xn(ejω)进行取样,由这些取样值恢复的时域信号应该是
x
(
m
)
w
(
n
−
m
)
x\left(m\right)w\left(n-m\right)
x(m)w(n−m)周期延拓的结果,延拓周期为:
2
π
k
ω
k
=
L
\frac{2\pi k}{\omega_k}=L
ωk2πk=L
所以为使恢复出的时域信号不产生混叠失真,应满足:
L
≥
N
L\geq N
L≥N
总取样率
S R = 2 B ⋅ L = { 2 f s L N 直角窗 4 f s L N 海明窗 SR=2B\cdot L= \left\{ \begin{array}{rcl} \frac{2f_sL}{N} & & {直角窗}\\ \frac{4f_sL}{N} & & {海明窗}\\ \end{array} \right. SR=2B⋅L={N2fsLN4fsL直角窗海明窗
一般情况下,带宽B与
f
s
/
N
f_s/N
fs/N成正比
B
=
k
⋅
f
s
N
S
R
=
2
k
⋅
f
s
N
⋅
L
≥
2
k
⋅
f
s
N
⋅
N
=
2
k
f
s
B=k\cdot \frac{f_s}{N} \\SR=2k\cdot \frac{f_s}{N}\cdot L\geq 2k\cdot \frac{f_s}{N}\cdot N=2kf_s
B=k⋅NfsSR=2k⋅Nfs⋅L≥2k⋅Nfs⋅N=2kfs
X
n
(
e
j
ω
)
X_n\left(e^{j\omega}\right)
Xn(ejω)的最低取样率是信号波形取样率
f
s
f_s
fs的2k倍。
k为正比例系数,矩形窗k=1,海明窗k=2。
语音信号的短时综合
滤波器组求和法
\rule[4pt]{1cm}{0.06em}
基于短时频谱的滤波器组表示
y
(
n
)
=
∑
k
=
0
L
−
1
y
k
(
n
)
=
∑
k
=
0
L
−
1
X
n
(
e
j
ω
k
)
e
j
ω
k
n
y\left(n\right)=\sum\limits_{k=0}^{L-1}y_k\left(n\right)=\sum\limits_{k=0}^{L-1}X_n\left(e^{j\omega_k}\right)e^{j\omega_k n}
y(n)=k=0∑L−1yk(n)=k=0∑L−1Xn(ejωk)ejωkn
即输出的信号为滤波器组中每个通带输出信号的总和。在恢复时这些通带信号被移回到原来的中心频率上。
快速傅里叶变换求和法
\rule[4pt]{1cm}{0.06em} 基于短时频谱的标准傅里叶表示
语谱图
语谱图:是一种依赖于傅里叶分析的显示图形。它是一种三维频谱,表示语音频谱随时间变化的图形。
语谱仪实际上是一个带通滤波器组的输出随时间发生连续变化,连续重复进行语音信号频率分析的仪器。带通有两种带宽选择:窄带45Hz,宽带300Hz。
-
窄带语谱图:频率分辨率高,有利于显示基因频率及谐波的时变过程,但时间分辨率低,不利于观察共振峰的变化;
-
宽带语谱图:时间分辨率高,共振峰为黑色的条纹,频率分辨率差。
宽带语谱图的典型谱型
- 宽横杠:与时间轴平行的深黑色带纹,它们相对于短时谱中的几个凸出点,即共振峰。从横杠对应的频率和宽度可以确定相应的共振峰频率和带宽。在一个语音段的语谱图中,有没有横杠出现是判断它是否为浊音的重要标志。元音一般对应横杠。
- 竖直条:与时间轴垂直的一条窄黑条,每个竖直条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期。条纹越密表示基音频率越高。
- 乱纹:清擦音表现为乱纹。乱纹的深浅和上下限反映了噪音能量在频域中的分布。
窄带语谱图的典型谱型
- 窄横条:代表元音的基频及各次谐波,表现为与时间轴平行的细线条。它们在频率轴的位置对应于音高频率值,随时间轴的曲折、升降变化表示音高变化的模式,对应于不同的调形。
越密表示基音频率越高。 - 乱纹:清擦音表现为乱纹。乱纹的深浅和上下限反映了噪音能量在频域中的分布。
窄带语谱图的典型谱型
- 窄横条:代表元音的基频及各次谐波,表现为与时间轴平行的细线条。它们在频率轴的位置对应于音高频率值,随时间轴的曲折、升降变化表示音高变化的模式,对应于不同的调形。
- 无声间隙段:对应于语音停顿间隙,表现为空白区,在窄带语谱图和宽带语谱图中都存在。