语音信号的短时傅里叶分析

语音信号的短时傅里叶分析

概述

  • 标准傅里叶分析在信号处理中具有非常重要的作用,适用于周期瞬变或平稳随机信号的分析:
    x ( e j ω ) = ∑ n = − ∞ ∞ x ( n ) e − j ω n x\left(e^{j\omega}\right)=\sum\limits_{n=-\infty}^{\infty}x\left(n\right)e^{-j\omega n} x(e)=n=x(n)ejωn

  • 语音信号是一个非平稳过程,所以标准傅里叶分析不能直接进行。

  • 因语音信号具有短时特性,所以可以采用短时傅里叶变换,即有限长度的傅里叶变换,相应的谱成为“短时谱”。

短时傅里叶变换

  1. 短时傅里叶变换定义
    X n ( e j ω ) = ∑ m = − ∞ ∞ x ( m ) w ( n − m ) e − j ω m X_n\left(e^{j\omega}\right)=\sum\limits_{m=-\infty}^{\infty}x\left(m\right)w\left(n-m\right)e^{-j\omega m} Xn(e)=m=x(m)w(nm)ejωm

    • 短时傅里叶分析是窗选语音信号的标准傅里叶变换。
    • 它有两个自变量:既是关于时间 n n n的离散函数,又是关于角频率 w w w的连续函数。
  2. X n ( e j ω ) = ∑ m = − ∞ ∞ x ( m ) w ( n − m ) e − j ω m X n ( e j 2 π k N ) = ∑ m = − ∞ ∞ x ( m ) w ( n − m ) e − j 2 π k m N 0 ≤ k ≤ N − 1 X_n\left(e^{j\omega}\right)=\sum\limits_{m=-\infty}^{\infty}x\left(m\right)w\left(n-m\right)e^{-j\omega m} \\X_n\left(e^{j\frac{2\pi k}{N}}\right)=\sum\limits_{m=-\infty}^{\infty}x\left(m\right)w\left(n-m\right)e^{-j\frac{2\pi km}{N}}\qquad 0\leq k\leq N-1 Xn(e)=m=x(m)w(nm)ejωmXn(ejN2πk)=m=x(m)w(nm)ejN2πkm0kN1

    注释

    • 当n固定不变时,它们是序列 w ( n − m ) x ( m ) ( − ∞ < m < ∞ ) w\left(n-m\right)x\left(m\right)\left(-\infty <m<\infty\right) w(nm)x(m)(<m<)的标准傅里叶变换或标准的离散傅里叶变换;
    • ω \omega ω或k固定时, X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn(e) X n ( e k ) X_n\left(e^k\right) Xn(ek)看作时时间n的函数,他们是信号序列和窗口序列的卷积,此时窗口的作用相当于一个滤波器。

    标准傅里叶变换 :

    • 窗函数的作用:窗函数形状和大小对短时傅里叶变换特性有影响。

      • 窗口序列的作用:

        X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn(e)是通过将 w ( n − m ) w\left(n-m\right) w(nm) x ( m ) x\left(m\right) x(m) ( − ∞ < m < ∞ ) \left(-\infty <m<\infty\right) (<m<)区间内的傅里叶变换进行卷积得到的。即 X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn(e)相当于对信号谱与窗函数谱的卷积。

        语音加窗后相当于突出了n附近的波形而对其他波形加以削弱。

        窗函数应具有的特性:

        • 频率分辨率高,即主瓣狭窄、尖锐;
        • 频谱泄露少,即旁瓣衰减大。
      • 窗口宽度的影响:
        Δ f = 1 N T \Delta f = \frac{1}{NT} Δf=NT1

        频率分辨率 Δ f \Delta f Δf随窗口宽度N的增加而提高,但时间分辨率降低。

      • 窗形状对短时傅里叶变换的影响:

        矩形窗----主瓣窄,旁瓣衰减慢;

        海明窗----主瓣宽,旁瓣衰减快。

      • 窗宽对短时傅里叶变换的影响:

        窗宽长----频率分辨率高,能看到频谱快变化;

        窗宽窄----频率分辨率低,看不到频谱的快变化。

短时傅里叶的取样率

时域取样率

X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn(e)的取样率至少为2B才不致混叠,而B由 w ( n ) w\left(n\right) w(n)的傅里叶变换 W ( e j ω ) W\left(e^{j\omega}\right) W(e)的第一个零点位置决定,它与窗的形状和长度有关。

经推算:
2 B = { 2 f s N 直角窗 4 f s N 海明窗 2B= \left\{ \begin{array}{rcl} \frac{2f_s}{N} & & {直角窗}\\ \frac{4f_s}{N} & & {海明窗}\\ \end{array} \right. 2B={N2fsN4fs直角窗海明窗

频域取样率

因为 X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn(e)是关于 ω \omega ω的周期为 2 π 2\pi 2π的周期函数,只讨论 2 π 2\pi 2π范围,等间隔取样,各取样频率值为:
ω k = 2 π k L k = 0 , 1 , ⋯   , L − 1 L 为取样点数 \omega_k=\frac{2\pi k}{L}\qquad k=0,1,\cdots,L-1\qquad\qquad L为取样点数 ωk=L2πkk=0,1,,L1L为取样点数
在频域内对 X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn(e)进行取样,由这些取样值恢复的时域信号应该是 x ( m ) w ( n − m ) x\left(m\right)w\left(n-m\right) x(m)w(nm)周期延拓的结果,延拓周期为:
2 π k ω k = L \frac{2\pi k}{\omega_k}=L ωk2πk=L
所以为使恢复出的时域信号不产生混叠失真,应满足:
L ≥ N L\geq N LN

总取样率

S R = 2 B ⋅ L = { 2 f s L N 直角窗 4 f s L N 海明窗 SR=2B\cdot L= \left\{ \begin{array}{rcl} \frac{2f_sL}{N} & & {直角窗}\\ \frac{4f_sL}{N} & & {海明窗}\\ \end{array} \right. SR=2BL={N2fsLN4fsL直角窗海明窗

一般情况下,带宽B与 f s / N f_s/N fs/N成正比
B = k ⋅ f s N S R = 2 k ⋅ f s N ⋅ L ≥ 2 k ⋅ f s N ⋅ N = 2 k f s B=k\cdot \frac{f_s}{N} \\SR=2k\cdot \frac{f_s}{N}\cdot L\geq 2k\cdot \frac{f_s}{N}\cdot N=2kf_s B=kNfsSR=2kNfsL2kNfsN=2kfs
X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn(e)的最低取样率是信号波形取样率 f s f_s fs的2k倍。

k为正比例系数,矩形窗k=1,海明窗k=2

语音信号的短时综合

短时傅里叶反变换
X
x

滤波器组求和法

\rule[4pt]{1cm}{0.06em} 基于短时频谱的滤波器组表示
y ( n ) = ∑ k = 0 L − 1 y k ( n ) = ∑ k = 0 L − 1 X n ( e j ω k ) e j ω k n y\left(n\right)=\sum\limits_{k=0}^{L-1}y_k\left(n\right)=\sum\limits_{k=0}^{L-1}X_n\left(e^{j\omega_k}\right)e^{j\omega_k n} y(n)=k=0L1yk(n)=k=0L1Xn(ejωk)ejωkn
即输出的信号为滤波器组中每个通带输出信号的总和。在恢复时这些通带信号被移回到原来的中心频率上。

快速傅里叶变换求和法

\rule[4pt]{1cm}{0.06em} 基于短时频谱的标准傅里叶表示

语谱图

语谱图:是一种依赖于傅里叶分析的显示图形。它是一种三维频谱,表示语音频谱随时间变化的图形。

语谱仪实际上是一个带通滤波器组的输出随时间发生连续变化,连续重复进行语音信号频率分析的仪器。带通有两种带宽选择:窄带45Hz,宽带300Hz

  • 窄带语谱图:频率分辨率高,有利于显示基因频率及谐波的时变过程,但时间分辨率低,不利于观察共振峰的变化;

  • 宽带语谱图:时间分辨率高,共振峰为黑色的条纹,频率分辨率差。

宽带语谱图的典型谱型

  1. 宽横杠:与时间轴平行的深黑色带纹,它们相对于短时谱中的几个凸出点,即共振峰。从横杠对应的频率和宽度可以确定相应的共振峰频率和带宽。在一个语音段的语谱图中,有没有横杠出现是判断它是否为浊音的重要标志。元音一般对应横杠。
  2. 竖直条:与时间轴垂直的一条窄黑条,每个竖直条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期。条纹越密表示基音频率越高。
  3. 乱纹:清擦音表现为乱纹。乱纹的深浅和上下限反映了噪音能量在频域中的分布。

窄带语谱图的典型谱型

  1. 窄横条:代表元音的基频及各次谐波,表现为与时间轴平行的细线条。它们在频率轴的位置对应于音高频率值,随时间轴的曲折、升降变化表示音高变化的模式,对应于不同的调形。
    越密表示基音频率越高。
  2. 乱纹:清擦音表现为乱纹。乱纹的深浅和上下限反映了噪音能量在频域中的分布。

窄带语谱图的典型谱型

  1. 窄横条:代表元音的基频及各次谐波,表现为与时间轴平行的细线条。它们在频率轴的位置对应于音高频率值,随时间轴的曲折、升降变化表示音高变化的模式,对应于不同的调形。
  2. 无声间隙段:对应于语音停顿间隙,表现为空白区,在窄带语谱图和宽带语谱图中都存在。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值