从发声机理到听觉感知认识声音的本质

 

                               从发声机理到听觉感知认识声音的本质


本内容全原创,因作者才疏学浅,偶有纰漏,望不吝指出。本内容由灵声讯音频-语音算法实验室整理创作,转载和使用请与“灵声讯”联系,联系方式:音频/识别/合成算法QQ群(696554058)


§1.1 语音产生与感知

语音信号的产生和感知对应不同的数学模型,为了处理和实现更加简便,要求数学模型应尽可能简单。语音产生和感知过程本就复杂,且所包含的信息十分多样,要想找到一种能够完整描述发声和感知特性的模型很难,但是目前还在努力寻找此类模型。最早是在1960年由Frant提出的线性预测模型,该模型是模拟语音产生较为成功模型,所代表的参数有LPC,LPCC等,后来出现了基于听觉特性的特征参数则,即目前最常用的MFCC。因此,研究语音发声机理和听觉特性是提取有效特征参数的关键。

§1.1.1 发声机理研究

人类的发音是一个复杂的过程,它是在大脑支配下,由构成人体的发音器官生理运动产生的。通常人体的发音器官指:肺,气管,喉和声道。下面给出声道纵剖面图,如图3.1所示。同时分别介绍各自在发声过程中的功能。肺的主要功能是在血液和空气之间进行气体交换。气管是连接肺和喉,是发声气流经过的通道。喉是由肌肉和软骨组成,是发声的关键部位,它包含发音器官声带[37]。在整个过程中,声带就相当于激励源,为声音的产生提供触发信号。

                                              

 

                                                                                              图1.1 声道纵剖面图

下图1.2是简化的实际发声机理的示意图,如图所示发声过程先是由空气经过肺部喷射形成空气流,到达声带后引起声带张弛振动,即声门周期性开或关。当声门打开时,空气流通过就形成一个脉冲,当声门闭合时,空气流被阻止恰好形成间隙期[37]。因此,在这往复的过程中声门处就形成一个准周期脉冲空气流。如果空气流经过咽喉到达鼻腔和口腔,经过嘴唇和鼻孔辐射便产生浊音[37];当空气流经过通道时恰好收缩变小便产生清音或摩擦音;当通过时声道某部位完全闭合,一旦突然开启便产生爆破音。

                                                        

                                                                                     图1.2 语音发声机理示意图

因此,不同的激励源产生不同类型的语音。浊音的激励源是位于声门的准周期脉冲序列,清音的激励源是在声道某个收缩区的空气湍流,爆破音激励源是在声道某闭合点处积聚起来的气压及其瞬间释放[38]。发浊音时,脉冲周期不仅与声带长度有关,而且与声带厚度和张力有关。通常声带越短,厚度越薄,张力越大,音调越高,即浊音基音频率越高。男性的基音频率范围为50~250Hz,女性基音频率范围为100~500Hz。

语音信号随时间变化的频谱特性可以用语谱图来表示[39],它是一种三维图形,纵轴代表频率,横轴代表时间,图像的颜色深浅正比于信号能量。图1.3是测试语音“深圳灵声讯科技”的语谱图。

                                                  

                                                                              图1.3 “深圳灵声讯科技”语谱图

§1.1.2 听觉特性研究

建立高性能语音识别系统不仅要发声准确,还需要听觉准确,于是研究人类的听觉特征是关键。接下来主要介绍听觉特性的外围系统,特性,掩蔽效应等,剖析涉及听觉特征参数的各个环节。

1. 外围听觉系统

为了更好地应用听觉特性,先介绍外围听觉系统如图1.4所示。从图中可以清晰可见,外耳、中耳、内耳以及听觉神经纤维共同组成了人的听觉系统。

(1) 外耳

外耳是听觉器官的第一层,属于系统结构的最外层。但如果没有外耳,听觉就不会那么灵敏,接受声音的能力就会变得很差,许多声音就可能听不到。成年人的外耳道约长2.7cm,直径大约为0.7cm。一般认为,外耳在声音感知中有两个基本作用,一是声源定位,二是声音放大。除了外耳道的共振可使声音放大外,头的衍射效应也会增加鼓膜处声压,使得声音放大约20倍。

                                    

 

                                                                                    图 1.4听觉系统结构图

(2) 中耳

中耳是由锤骨、砧骨和镫骨三块听小骨组成。它有两个基本功能:一是进行阻抗变换,即匹配中耳两端的声音阻抗[28];二是保护内耳。在一定声强范围内,声音是由听小骨线性传递,当声强特别大时,它开始非线性传递[40]。

(3) 内耳

内耳主要由耳蜗构成,耳蜗是将声音通过机械变换产生神经信号的器官[28]。耳蜗长约3.5cm,最宽处约为0.32cm,呈螺旋状盘绕2.5~2.75圈。整个耳蜗被隔膜分成三个部分,中间的隔膜叫基底膜,上部为瑞士膜,中间部分称为耳蜗管。

2. 听觉特性

人耳听觉特性来自于听觉的主观感知,主要包括听域与听阈、音调、响度和遮掩效应。

(1) 听域与听阈

听域是指人能感知声音的范围。人耳可以听到的频率范围一般为20Hz~20KHz,年轻人可以听到20KHz的声音,而老年人只能听到10KHz左右的声音。正常人能感知声音的强度为0dB~128dBSPL(声压级Sound Power Level),这里基准声压级(0dB SPL)定义为

                                                                                       

。听阈是指人耳能听到的最低声压级[41]。纯音的听阈与频率有关:1KHz纯音的听阈大约为4dB,10KHz时听阈大约为15dB,到40KHz时听阈将达到50dB左右。

(2) 音调(pitch)

音调是人耳对不同频率声音的一种主观感受[42]。频率高的音,人感觉其音调也高,反之,人感觉音调低的音频率也低。人们定义一个听阈高于40dB,频率为1kHz纯音的音调为1000Mel(Mel是音调度量单位)。音调与频率之间的关系近似满足方程(1-1):

                                                         

(3) 响度级、响度与掩蔽效应

人耳对不同频率纯音的辨别力是不一样的,响度级(Loudness Level)正是用来表征辨别灵敏度的物理量。响度级的单位为“方”(Phon),1方在数值上等于1kHz纯音的声强级。为了确定一个音的响度级,需要调节1kHz纯音的声强直到它听起来和目标音一样响,此时1kHz纯音的声压级数值上等于该音的响度级。

相比较响度级,响度单位“宋”(Sone)被用来刻画主观感受的声音响度及其变化,这种感受与音强、频率、波形都有关系。定义一个听阈高于40dB,频率为1kHz纯音的响度为1 Sone。如果一个音被认为响度是该纯音的K倍,则其响度为K Sone。响度和响度级之间满足公式(1-2)的转换关系:

                                                                        

上式表明,当响度的值增加一倍时,响度级的值增加约10Phon;

一个声音的听阈因另外一个声音的出现而升高的现象成为掩蔽效应[43]。前者被称为被掩蔽声,后者被称为掩蔽声。被掩蔽声能被觉察到时掩蔽声的强度称为被掩蔽声的掩蔽阈限。掩蔽效应已成功运用于语音信号处理中来提高处理质量。

                                                            

 

 

 

参考文献:

[1] 姚天仁. 数字语音处理[M].武汉:华中科技大学出版社.2003.

[2] 杨行峻,迟惠生等. 语音信号数字处理[M].北京:电子工业出版社,1996.

[3] 王炳锡,屈丹,彭煊. 实用语音识别基础[M].北京:国防工业出版社. 2005.

[4] Saldanha, Jennifer C. Ananthakrishna, T.Pinto, Rohan. Vocal Fold Pathology Assessment Using Mel-Frequency Cepstral Coefficients and Linear Predictive Cepstral Coefficients Features[J].Journal of Medical Imaging and Health Informatics, Volume 4, Number 2, April 2014, pp. 168-173(6).

[5] 王敏妲. 语音识别技术的研究与发展[J].微型机与应用,2009,23(3):1-2,6.

[6] 李璐. 基于语音识别的拼音学习系统设计与实现[D].北京:北京邮电大学,2010.

[7] Hilman F. Pardede, Koji Iwano, Koichi Shinoda. Feature normalization based on non-extensive statistics for speech recognition[J].Speech Communication 55 (2013) 587–599.

[8] Sonkamble B.A. Doye D.D. An overview of speech recognition system based on the support vector machines[C].Computer and Communication Engineering, ICCCE 2008. International Conference on 13-15 May 2008.

[9] 吴炜烨. 基于神经网络语音识别算法的研究[D].中南大学,2009.

[10] 吕云芳. 基于模板匹配法的语音识别系统研究与基本实现[D].河北工业大学,2005.


本内容由灵声讯音频-语音算法实验室整理,转载和使用请与“灵声讯”联系,联系方式:音频/识别/合成算法QQ群(696554058)


                                                               

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值