从发声机理到听觉感知认识声音的本质

本文链接：https://blog.csdn.net/king_audio_video/article/details/94476279

从发声机理到听觉感知认识声音的本质

本内容全原创，因作者才疏学浅，偶有纰漏，望不吝指出。本内容由灵声讯音频-语音算法实验室整理创作，转载和使用请与“灵声讯”联系，联系方式：音频/识别/合成算法QQ群（696554058）

§1.1 语音产生与感知

语音信号的产生和感知对应不同的数学模型，为了处理和实现更加简便，要求数学模型应尽可能简单。语音产生和感知过程本就复杂，且所包含的信息十分多样，要想找到一种能够完整描述发声和感知特性的模型很难，但是目前还在努力寻找此类模型。最早是在1960年由Frant提出的线性预测模型，该模型是模拟语音产生较为成功模型，所代表的参数有LPC，LPCC等，后来出现了基于听觉特性的特征参数则，即目前最常用的MFCC。因此，研究语音发声机理和听觉特性是提取有效特征参数的关键。

§1.1.1 发声机理研究

人类的发音是一个复杂的过程，它是在大脑支配下，由构成人体的发音器官生理运动产生的。通常人体的发音器官指：肺，气管，喉和声道。下面给出声道纵剖面图，如图3.1所示。同时分别介绍各自在发声过程中的功能。肺的主要功能是在血液和空气之间进行气体交换。气管是连接肺和喉，是发声气流经过的通道。喉是由肌肉和软骨组成，是发声的关键部位，它包含发音器官声带[37]。在整个过程中，声带就相当于激励源，为声音的产生提供触发信号。

图1.1 声道纵剖面图

下图1.2是简化的实际发声机理的示意图，如图所示发声过程先是由空气经过肺部喷射形成空气流，到达声带后引起声带张弛振动，即声门周期性开或关。当声门打开时，空气流通过就形成一个脉冲，当声门闭合时，空气流被阻止恰好形成间隙期[37]。因此，在这往复的过程中声门处就形成一个准周期脉冲空气流。如果空气流经过咽喉到达鼻腔和口腔，经过嘴唇和鼻孔辐射便产生浊音[37]；当空气流经过通道时恰好收缩变小便产生清音或摩擦音；当通过时声道某部位完全闭合，一旦突然开启便产生爆破音。

图1.2 语音发声机理示意图

因此，不同的激励源产生不同类型的语音。浊音的激励源是位于声门的准周期脉冲序列，清音的激励源是在声道某个收缩区的空气湍流，爆破音激励源是在声道某闭合点处积聚起来的气压及其瞬间释放[38]。发浊音时，脉冲周期不仅与声带长度有关，而且与声带厚度和张力有关。通常声带越短，厚度越薄，张力越大，音调越高，即浊音基音频率越高。男性的基音频率范围为50~250Hz，女性基音频率范围为100~500Hz。

语音信号随时间变化的频谱特性可以用语谱图来表示[39]，它是一种三维图形，纵轴代表频率，横轴代表时间，图像的颜色深浅正比于信号能量。图1.3是测试语音“深圳灵声讯科技”的语谱图。

图1.3 “深圳灵声讯科技”语谱图

§1.1.2 听觉特性研究

建立高性能语音识别系统不仅要发声准确，还需要听觉准确，于是研究人类的听觉特征是关键。接下来主要介绍听觉特性的外围系统，特性，掩蔽效应等，剖析涉及听觉特征参数的各个环节。

1. 外围听觉系统

为了更好地应用听觉特性，先介绍外围听觉系统如图1.4所示。从图中可以清晰可见，外耳、中耳、内耳以及听觉神经纤维共同组成了人的听觉系统。

(1) 外耳

外耳是听觉器官的第一层，属于系统结构的最外层。但如果没有外耳，听觉就不会那么灵敏，接受声音的能力就会变得很差，许多声音就可能听不到。成年人的外耳道约长2.7cm，直径大约为0.7cm。一般认为，外耳在声音感知中有两个基本作用，一是声源定位，二是声音放大。除了外耳道的共振可使声音放大外，头的衍射效应也会增加鼓膜处声压，使得声音放大约20倍。

图 1.4听觉系统结构图

(2) 中耳

中耳是由锤骨、砧骨和镫骨三块听小骨组成。它有两个基本功能：一是进行阻抗变换，即匹配中耳两端的声音阻抗[28]；二是保护内耳。在一定声强范围内，声音是由听小骨线性传递，当声强特别大时，它开始非线性传递[40]。

(3) 内耳

内耳主要由耳蜗构成，耳蜗是将声音通过机械变换产生神经信号的器官[28]。耳蜗长约3.5cm，最宽处约为0.32cm，呈螺旋状盘绕2.5~2.75圈。整个耳蜗被隔膜分成三个部分，中间的隔膜叫基底膜，上部为瑞士膜，中间部分称为耳蜗管。

2. 听觉特性

人耳听觉特性来自于听觉的主观感知，主要包括听域与听阈、音调、响度和遮掩效应。

(1) 听域与听阈

听域是指人能感知声音的范围。人耳可以听到的频率范围一般为20Hz~20KHz，年轻人可以听到20KHz的声音，而老年人只能听到10KHz左右的声音。正常人能感知声音的强度为0dB~128dBSPL（声压级Sound Power Level），这里基准声压级（0dB SPL）定义为

。听阈是指人耳能听到的最低声压级[41]。纯音的听阈与频率有关：1KHz纯音的听阈大约为4dB，10KHz时听阈大约为15dB，到40KHz时听阈将达到50dB左右。

(2) 音调（pitch）

音调是人耳对不同频率声音的一种主观感受[42]。频率高的音，人感觉其音调也高，反之，人感觉音调低的音频率也低。人们定义一个听阈高于40dB，频率为1kHz纯音的音调为1000Mel（Mel是音调度量单位）。音调与频率之间的关系近似满足方程（1-1）：

(3) 响度级、响度与掩蔽效应

人耳对不同频率纯音的辨别力是不一样的，响度级（Loudness Level）正是用来表征辨别灵敏度的物理量。响度级的单位为“方”（Phon），1方在数值上等于1kHz纯音的声强级。为了确定一个音的响度级，需要调节1kHz纯音的声强直到它听起来和目标音一样响，此时1kHz纯音的声压级数值上等于该音的响度级。

相比较响度级，响度单位“宋”（Sone）被用来刻画主观感受的声音响度及其变化，这种感受与音强、频率、波形都有关系。定义一个听阈高于40dB，频率为1kHz纯音的响度为1 Sone。如果一个音被认为响度是该纯音的K倍，则其响度为K Sone。响度和响度级之间满足公式(1-2)的转换关系：

上式表明，当响度的值增加一倍时，响度级的值增加约10Phon;

一个声音的听阈因另外一个声音的出现而升高的现象成为掩蔽效应[43]。前者被称为被掩蔽声，后者被称为掩蔽声。被掩蔽声能被觉察到时掩蔽声的强度称为被掩蔽声的掩蔽阈限。掩蔽效应已成功运用于语音信号处理中来提高处理质量。

参考文献:

[1] 姚天仁. 数字语音处理[M].武汉:华中科技大学出版社.2003.

[2] 杨行峻,迟惠生等. 语音信号数字处理[M].北京:电子工业出版社，1996.

[3] 王炳锡,屈丹,彭煊. 实用语音识别基础[M].北京:国防工业出版社. 2005.

[4] Saldanha, Jennifer C. Ananthakrishna, T.Pinto, Rohan. Vocal Fold Pathology Assessment Using Mel-Frequency Cepstral Coefficients and Linear Predictive Cepstral Coefficients Features[J].Journal of Medical Imaging and Health Informatics, Volume 4, Number 2, April 2014, pp. 168-173(6).

[5] 王敏妲. 语音识别技术的研究与发展[J].微型机与应用,2009,23(3):1-2,6.

[6] 李璐. 基于语音识别的拼音学习系统设计与实现[D].北京:北京邮电大学,2010.

[7] Hilman F. Pardede, Koji Iwano, Koichi Shinoda. Feature normalization based on non-extensive statistics for speech recognition[J].Speech Communication 55 (2013) 587–599.

[8] Sonkamble B.A. Doye D.D. An overview of speech recognition system based on the support vector machines[C].Computer and Communication Engineering, ICCCE 2008. International Conference on 13-15 May 2008.

[9] 吴炜烨. 基于神经网络语音识别算法的研究[D].中南大学,2009.

[10] 吕云芳. 基于模板匹配法的语音识别系统研究与基本实现[D].河北工业大学,2005.

本内容由灵声讯音频-语音算法实验室整理，转载和使用请与“灵声讯”联系，联系方式：音频/识别/合成算法QQ群（696554058）