语音信号处理基础知识-常用特征及预处理

一、语音信号的特点

  其主要特点如下所示:
    a) 语音信号的带宽约为 5 K h z 5Khz 5Khz , 主要能量集中在低频段。
    b) 语音信号总体为非平稳时变信号,一般认为是短时平稳( 10 m s − 30 m s 10ms-30ms 10ms30ms)。
    c) 说话的声音主要可以分为清音浊音
      浊音:发声时声带振动,语音信号在时域上有明显的周期性。
      清音:发声时声带不振动
        特点:
          浊音的短时能量大短时平均幅度大短时过零率低
          清音的短时能量小短时平均幅度小短时过零率高
    声音一般可分为清音浊音,发浊音时,声带振动,语音信号在时域上有明显的周期性,这种声带振动的频率称为基音频率。基音周期的估计又叫基音检测

二、常用语音特征参数

  一般原始语音信号较为复杂,直接将其作为输入送入到神经网络中,计算复杂度较高且性能较差,因此需要对语音信号进行特征提取。
    a) 短时过零率,即一帧语音信号波形穿过横轴的次数。一般,高频语音过零率较高低频语音过零率较低,故短时过零率是区分清音(多数能量集中在高频)和浊音(多数能量集中在低频)的有效参数。短时过零率具体定义如下: Z n = 1 2 ∑ m = 0 N − 2 ∣ sgn ⁡ [ x n ( m ) ] − sgn ⁡ [ x n ( m − 1 ) ] ∣ Z_{n}=\frac{1}{2} \sum_{m=0}^{N-2}\left|\operatorname{sgn}\left[x_{n}(m)\right]-\operatorname{sgn}\left[x_{n}(m-1)\right]\right| Zn=21m=0N2sgn[xn(m)]sgn[xn(m1)]其中, x n ( m ) x_{n}(m) xn(m)表示短帧信号, N N N表示帧长, sgn ⁡ [ ∙ ] \operatorname{sgn}[\bullet] sgn[] 表示符号函数。对一段语音信号分帧后求出其所有帧短时过零率,如下图所示。

  这段语音信号中某两帧的过零率如下所示:

  因此由上图可知,第834帧语音信号为浊音(过零率低),第828帧语音信号为清音(清音)。
    b)  短时平均幅度是语音信号能量大小特征,由其包络原始信号包络十分相似,常用于语音识别语音活动检测(Voice Activity Detection, VDA)判断等领域。定义如下: M n = ∑ m = 0 N − 1 ∣ x n ( m ) ∣ M_{n}=\sum_{m=0}^{N-1}\left|x_{n}(m)\right| Mn=m=0N1xn(m)   其中, x n ( m ) x_{n}(m) xn(m)表示短帧信号 N N N表示帧长。对一段语音信号进行短时平均幅度分析如下所示:

    c) 基因周期发浊音时声带振动语音信号在时域上有明显的周期性声带振动频率称作基音频率,相应的周期称为基因周期,这一参数广泛被用在语音识别、说话人确认、语音合成,男女生辨别等领域。目前常用的基音检测方法可分为两大类:
      - 基于事件检测方法,主要是通过对声门闭合时刻进行定位来估计基音周期,主要有小波变换法希尔伯特变换法
      - 非基于事件的检测法,主要利用语音的短时平稳性,将语音分为短时语音段,然后对每一段进行求解。主要方法有:自相关函数法平均幅度差函数法倒谱法
  补充: 男性的基音频率较低,其范围大概为70Hz-200Hz之间,说话人为女性的基音频率大概再200-450Hz之间。

    d) 共振峰频率,人体说话时声带振动产生准周期脉冲激励,当激励进入声道时,受声道模型的影响,会引起共振,产生一组共振频率,称作共振峰频率。目前,共振峰的常用检测方法有倒谱法线性预测法

    e) 梅尔倒谱系数(MFFCC),人耳听到的声音高低与频率不呈正比关系,人耳对 1000 H z 1000Hz 1000Hz以下的声音的感知能力与频率大致呈线性关系,对 1000 H z 1000Hz 1000Hz以上的声音的感知能力与频率大致呈对数关系。是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系mel频率域尺度广泛用于情感识别语音识别等领域。频域转换到mel域的公式如下所示: mel ⁡ ( f ) = 2595 ( 1 + f / 700 ) \operatorname{mel}(f)=2595(1+f / 700) mel(f)=2595(1+f/700)

三、语音信号预处理

    a) 预加重与去加重受口唇辐射的影响功率谱随频率的增加而减小,语音的能量主要集中在低频部分高频部分信噪比较低,为了抵消这种不利影响,需要对语音信号进行预加重和去加重处理
      - 预加重一般使用一阶的FIR的高通滤波器加重语音信号的高频分量,滤波器的传递函数 H ( z ) = 1 − a z − 1 H(z)=1-a z^{-1} H(z)=1az1 a a a为预加重系数,通常为 0.9 < a < 1.0 0.9<a<1.0 0.9<a<1.0Matlab中可以用y=filter([1, -0.98],1,x)指令来实现预加重,其结果如下图所示。

    a) 分帧加窗,对语音信号需要分帧加窗处理后进行短时分析,使得每一帧语音信号的长度一般为 10 − 30 m s 10-30ms 1030ms
      - 在实际处理过程中,为了保证语音的连续性且充分利用帧与帧之间的相关性,使得帧与帧之间平滑过渡,需要使用交叠分段的方法。

    分帧加窗后的结果如下图所示,

四、参考链接

  1、陈林. 会议电话中的实时回声消除算法研究与实现[D].东南大学,2019.

  • 9
    点赞
  • 122
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值