基于倒谱法、自相关法、短时幅度差法的基音频率估计算法(MATLAB及验证)

本文介绍了基音频率检测的重要性,探讨了基音频率的定义和检测方法,如倒谱法、短时自相关法和短时幅度差法,并通过MATLAB进行了算法实现和验证。实验结果显示,三种方法在不同场景下有各自的优缺点,例如倒谱法简单但精度有限,自相关法和短时幅度差法能提供更高精度但计算复杂度较高。
摘要由CSDN通过智能技术生成

基音频率检测

一、概念

何为基音周期?人在发音时,根据声带是否振动可以将语音信号分为清音和浊音两种。浊音携带大量的能量,因此又被称为有声语音,其在时域上有明显的周期性。而清音类似于白噪声,没有明显的周期性。发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串。这种声带振动的频率称为基音频率;相应的周期就称为基音周期

基音频率与个人声带的情况有关,包括声带长短、薄厚、韧性、劲度和发音习惯,总的来说基音频率就是说话人的特征之一。而且基音频率还随着人的性别、年龄不同而有所不同。男性大概在70-200Hz,女性大概在200-450Hz之间。

二、检测方法

尽管基音周期在目前有非常多的方法,但这些方法都具有局限性,没有一种检测方法能够适用于不同的说话人、不同的要求环境,主要原因归纳为如下方面:

  • 语音信号变化复杂,声门激励的波形并不是完全的周期脉冲串,语音的尾部也不具有声带振动的周期性,对有些清浊音的过渡帧很难判定其的周期性。
  • 声道共振峰有时会影响激励信号的谐波结构。
  • 在浊音语音段很难对每个基音周期的开始和结束位置进行精确的判断
  • 语音信号常常混有噪声
  • 基音频率变化范围大,从低音男声的70Hz到儿童女性的450Hz,接近3个倍频程给基音检测带来了一定的困难。

目前基音检测算法大致可以分为两大类:非基于事件检测方法和基于事件检测方法,事件指的是声门闭合。

非基于事件的检测方法主要有:自相关函数法平均幅度差函数法倒谱法等。非基于事件的检测方法是利用语音信号短时平稳性这一特点,先将语音信号分为长度一定的语音帧,然后对每一帧语音求基音周期。它的优点是:算法简单,运算量小,但缺点在于:无法检测帧内基音周期的非平稳变化,检测精度不高。

基于事件的检测方法主要有:小波变换Hilbert-Huang变换。基于事件的检测方法是通过声门闭合时刻来对基音周期进行估计,而不需要对语音信号进行短时平稳假设。优点是:在时域和频域上有良好的局部特性,能跟踪基音周期的变化,并能将微小的基音周期变化检测出来,检测精度高。缺点是:计算量较大

三、估计一帧信号的基音频率
倒谱法

由于语音 x ( i ) x(i) x(i)是由声门脉冲激励 u ( i ) u(i) u(i)经声道响应 v ( i ) v(i) v(i)滤波而得,即
x ( i ) = u ( i ) ∗ u ( i ) x(i)=u(i)*u(i) x(i)=u(i)u(i)
设这三个量的倒谱分别为 x ^ ( i ) 、 u ^ ( i ) 、 v ^ ( i ) \widehat{x}(i)、\widehat{u}(i)、\widehat{v}(i) x (i)u (i)v (i),则有:
x ^ ( i ) = u ^ ( i ) ∗ v ^ ( i ) \widehat{x}(i)=\widehat{u}(i)*\widehat{v}(i) x (i)=u (i)v (i)
由于在倒谱域中 u ^ ( i ) 和 v ^ ( i ) \widehat{u}(i)和\widehat{v}(i) u (i)v (i)是相对分离的,说明包含有基音信息的声脉冲倒谱可以与声道响应倒谱分离,因此从倒谱域分离 u ^ ( i ) 和 u ( i ) \widehat{u}(i)和u(i) u (i)u(i)。在计算出倒谱后,就在倒谱频率为 P m i n ∼ P m a

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值