第二章 语音信号处理的基础知识

本系列文章为郑铁然《语音信号处理》(第三版)、赵力《语音信号处理》(第二版)阅读笔记,仅为整理,不做任何商业传播用途。若有雷同,不是偶然。

【语音信号的线性产生模型、非线性产生模型还看不懂,就先不深究了,对于目前的学习没有影响】

语音信号处理的目的:

  • 通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息
  • 通过处理某种运算以达到某种用途的要求,例如人工合成出语音、识出讲话者、识别出讲话的内容等等。

语音学的三个分支:

  • 发音语音学(articulatory phonetics)。发音语音学是最早发展起来的语音学,它的目的是从生理的角度研究语音。在没有仪器的时候,通常只能直接观察发音器官的动作来分析语音。由于生理活动不能完全依靠直观分析,因而人们制造出一些仪器来进行辅助研究。
  • 声学语音学(acoustic phonetics)。声学语音学是在20世纪40年代开始发展起来的学科。它的目的是从声学角度研究语音的物理性质,同时考察语音物理性质和发音器官之间的关系。
  • 听觉语音学和心理语言学(auditory phonetics and psycholinguistics)。听觉语音学和心理语言学是较新的学科。因为语言的传递从大脑开始,又到大脑结束,或者说,语言的传递起点和终点都在大脑,所以听觉语音学和心理语言学就以大脑作为研究对象。它的目的是要探索大脑通过什么步骤或者方式来处理语音的发出和接收,以及语言信息又是以什么形式在大脑的什么部位存储起来。声音到达大脑的第一关是人耳,即听觉系统的起点在人耳,因此听觉语音学和心理语言学还要研究人耳的构造,以及人耳是如何传递声波的。

语音和语言

语音是在说话人和听者之间互相传递的,传递的媒介是声波。说话人的发音器官做出发音动作,接着空气振动形成声波,声波传到听者的耳朵里,立即引起听者的听觉反应,语音的传递就是这样的一个过程。

其中发音动作属于生理现象,空气振动属于物理现象,而听觉反应属于心理现象。

语音(Speech)是声音(Acoustic)和语言(Language)的组合体,因此语音可以定义为一连串的音组成的语言。

1 语音信号的产生

①首先,说话人在头脑中产生想要用语言表达的信息,然后将这些信息转换成语言编码,即将这些信息用其所包含的音素序列、韵律、响度、基音周期的升降等表示出来。②一旦这些信息编码完成后,说话人会用一些神经肌肉命令在适当的时候控制声带振动,并塑造声道的形状以便可以发出编码中指定的声音序列。神经肌肉命令必须同时控制调音运动中涉及的各个部位,包括唇、颚、舌头,以及控制气流是否进入鼻腔的软腭。③一旦产生了语音信号,并将这些信息传递到听者时,语音的感知过程也就开始了。④听者内耳的基底膜,首先对语音信号进行动态的频谱分析,神经传感器将基底膜输出的频谱信号转换成对听觉神经的触动信号,这一过程和后面将要介绍的特征提取的过程有些类似。⑤作用在听觉神经上的活动信号,在大脑更高层的中枢转化成语言编码,并由此产生具有语义的信息。

在这里插入图片描述

1.1 语音的发声器官

人类用来产生语音的发音器官自下而上包括肺部(lung)、气管(trachea)、喉(larynx)、咽(pharynx)、鼻腔(nasal cavity)、口腔(oral cavity)和唇(lip)。它们作为整体形成了一个连续的管道:

在这里插入图片描述

其中喉部以上的部分称为声道,随着发出语音的不同其形状是变化的,喉的部分称为声门

在说话时腹肌收缩使横膈膜向上,挤出肺部的空气,形成气流。由肺部呼出的气流是语音产生的原动力。

气管将肺部排出的气流送到咽喉。喉部位于气管的上端,由四块软骨组成,包括甲状软骨、杓状软骨、环状软骨和会厌软骨。其中甲状软骨突出在颈部,称为喉结。在喉部从喉结到杓状软骨之间的韧带褶,称为声带(vocal cords)。喉部的声带既是一个阀门,又是一个振动部件。一般声带的长度为10~14mm。呼吸时左右声带打开,说话时声带合拢。两个声带之间形成一个开闭自如的声门(glottis),声门的开启和关闭是由两个杓状软骨控制,说话时合拢的声带受声门下气流冲击而张开;由于声带具有一定的韧性,可以迅速闭合。

声带的振动取决于其质量。质量越大,每秒振动次数越小;反之,质量越小,声带振动越快。声带振动频率决定了声音的音高。声带振动产生声音,这是产生声音的基本声源,称为声带音源(glottal source)。声带每开启和闭合一次的时间就是基音周期(pitch period),它的倒数称为基音频率(pitch frequency)。基音频率取决于声带的大小、厚薄、松紧程度,以及声门上下之间的气压差的效应等。基音频率最低可达到80Hz,最高可达到500Hz。

在这里插入图片描述

1.2 语音听觉系统

在这里插入图片描述
在这里插入图片描述
外耳道同其他管道一样也有许多共振频率。外耳道对声波的共振频率可以计算如下:共振峰频率=声音速度/声音的波长。外耳道的长度大约是25mm,声波波长的长度是它的4倍,声速是340m/s,因此外耳道共振峰频率=(1000×340)/(4×25)=3400Hz,即外耳道的共振峰频率大约是3400Hz。由于外耳道的共振效应,会使声音得到10dB左右的放大。

此外头的衍射效应也会增大鼓膜处的声压,总共可以使声音得到20dB左右的放大。

人的听觉系统有两个重要特性,①耳蜗对于声信号的时频分析特性;②人耳听觉掩蔽效应

  • 耳蜗的时频分析:对于耳蜗的时频分析特性,当声音经外耳传人中耳时,镫骨的运动引起耳蜗内流体压强的变化,从而引起行波(Traveling Wave)沿基底膜的传播。不同频率的声音产生不同的行波,其峰值出现在基底膜的不同位置上。频率较低时,基底膜振动的幅度峰值出现在基底膜的顶部附近;相反,频率较高时,基底膜振动的幅度峰值出现在基底膜的基部附近(靠近骨)。如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度。从这个意义讲,耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。

横波 纵波 行波 驻波(概念理解)_行波和驻波-CSDN博客

  • 人耳掩蔽效应:并非所有的声普能被人听到,这取决于声音的强度和其频率范围。一般人可以感觉到20Hz20kHz、强度为-5130dB的声音信号。因此在这个范围以外的音频分量就是听不到的音频分量,在语音信号处理中就可以忽略掉,以节省处理成本。

    但是人耳的这种感觉不是绝对的,将随着信号特性的不同而不同。

    心理声学中的听觉蔽效应是指,在一个强信号附近,弱信号将变得不可闻,被蔽掉了。例如,工厂机器噪音会没人的谈话声音。此时,被掩蔽掉的不可闻信号的最大声压级(声强)称为门限或阀值(Masking Threshold),此频率下在这个拖蔽值以下的声音将被蔽掉。下图给出了一个具体的拖蔽曲线。图中最底端的曲线表示最小可听阈曲线,即在安静环境下,人耳对各种频率声音可以听到的最低声压,可见人耳对低频率和高频率是不敏感的,而在1kHz附近最敏感。上面的曲线表示由于1kHz频率的拖蔽声的存在,使得听阈曲线发生了变化。本来可以听到的3个被拖蔽声,变得听不到了【各自频率下的声强低于掩蔽阈值】。即由于蔽声(Masker)的存在,在其附近产生了掩蔽效应,低于掩蔽曲线的声音即使阈值高于安静听阈也将变得不可闻。掩蔽阈值取决于掩蔽者的音调、频率、声压级和时间。

    在这里插入图片描述

    掩蔽效应分为同时蔽和短时掩蔽。

    • 同时拖蔽(simultaneous masking)/频域掩蔽是指同时存在的一个弱信号和一个强信号率接近时,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度时就会导致这个弱信号变得不可闻【声音是否能被听到取决于它的频域和强度】。例如:同时出现的A声和B声,若A声原来的值为50dB,由于另一个频率不同的B声的存在使A声的阈值提高到68dB,我们将B声称为拖蔽声,A声称为被掩蔽声。68dB-50dB=18dB为掩蔽量。当只有A声时,必须把声压级在50dB以上的声音信号传送出去,50dB以下的声音是听不到的。但当同时出现了B声时,由于B声的掩蔽作用,使A声中的声压级在68dB以下部分已听不到了,可以不予传送,而只传送68dB以上的部分即可。

      一般来说,对于同时拖蔽,掩蔽声愈强,掩蔽作用愈大;掩蔽声与被掩蔽声的频率靠得愈近,掩蔽效果愈显著,两者频率相同时拖蔽效果最大。

    • 当A声和B声不时出现时也存在作用,称为短时掩蔽(non-simultaneous masking)。短时掩蔽又分为后向掩蔽和前向掩蔽。掩蔽声B即使消失后,其掩蔽作用仍将持续一段时间,约0.5~2s,这是由于人耳的存储效应所致,这种效应称为后向效应。若被掩蔽声A出现后,相隔0.05~0.2s之内出现了掩蔽声B,它也会对A起掩蔽作用,这是由于A声尚未被人所反应接受而强大的B声已来临所致,这种掩蔽称为前向掩蔽。

    根据掩蔽者:纯音调、宽带噪声和窄带噪声,不同的掩蔽者和被掩蔽者的组合有不同的掩蔽结果,它们的掩蔽阈值曲线形状具有一定的相似之处。

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

  1. 听觉特性:一般来说,声音从右耳传至左大脑的速度比较快,声音从左耳传至右大脑的速度比较慢。即两耳传递速度不同。对于辅音,右耳比左耳强一些;听音调也是右耳较有优势。正常人可听声音的频率范围为16Hz~16kHz,年轻人可听到20kHz的声音,而老年人可听到的高频声音要减少到10kHz左右。
    人类听觉器官对声波的音高、音强、声波的动态频谱具有分析感知能力。人耳对声音的强度和频率的主观感觉,是从响度及音调来体现的

  2. 人耳的听阈和响度:对频率不同的纯音,人耳具有不同的听辨灵敏度。响度就是反映一个人主观感觉不同频率成分的声音强弱的物理量,单位为方(phone)。在数值上1方等于1kHz的纯音的声强级,而零方对应人耳的听阈。所谓正常人的听阈是指声音小到人耳刚刚能听见时的大小。

    听阈值及响度的大小是随着频率的变化而变化的,例如在1kHz的纯音下,响度为10方时相当于10dB的声压级;而对于100Hz的纯音,为了使它听起来与10方的1kHz的纯音同样响,则声压级应该为30dB。这说明人耳对不同频率的声音的响应是不平坦的。这样人耳感知的声音响度是频率和声压级的函数,通过比较不同频率和幅度的语音可以得到主观等响度曲线,如下图所示。在该图中,最上面那根等响度曲线是痛阈,最下面那根等响度曲线是听阈。该曲线组在3~4kHz附近稍有下降,意味着感知灵敏度有提高,这是由于外耳道的共振引起的。

    在这里插入图片描述

1.3 语音特征

音色也叫音质,是一种声音区别于另一种声音的基本特征。

音调是指声音的高低,它取决于声波的频率。

声音的强弱叫音强,它由声波的振动福度决定。

声音的长短叫音长,它取决于发音时间的长短。

说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)

一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的元育(Vowel)和辅音(Consonant)两种音素。

元音是当声带振动发出的声音气流从喉腔、咽腔进人口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。

辅音是呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。

还有些音素,虽然声道基本畅通,但某处声道比较窄,引起轻微的摩擦声,称为半元音

元音构成一个音节的主干,无论从长度还是从能量看,元音在音节中都占主要部分。辅音则只出现在音节的前端或后端或前后两端,它们的时长和能量与元音相比都很小。

语音的声学特征

声波是一种纵波,它的振动方向和传播方向是一致的。

1 声波的物理描述

声波从声源向四面八方传播,它的频率(frequency)指在单位时间内声波的周期数。而波长(wave length)指声波中两个波峰之间相隔的时间距离。波长的计算是用声波的传播速度/声波的频率。频率越高,波长越短;频率越低,波长越长。从物理描述上看,声波具有两个参数:一个是频率;另一个是振幅(amplitude)。声音的频率与声音的音高有关。振幅则与声音的响度(loudness)有关。而频率和振幅之间没有必然的关系。

通常的声音还有复合音(complex tone)纯音(pure tone)之分。音叉发出的音是单纯声波,哨子发出的音也是纯音。笛子低音区发出的声音,其中一部分也是纯音。在纯音中仅仅有基音而没有倍音,而所谓倍音指该语音频率是基频的整数倍。一般的声音是包含了复合声波的声音。例如吉他的任何一根弦,它的声波中除了基频外,还有许多倍音,但是每个复合音突出的倍音不同。一个元音也是复合音。在一串声波中,基频的能量最高,振幅最强,力度最强,其他倍音的能量逐渐减低,力量逐渐减弱,以致最后消失。

基本频率(或简称基频,fundamental frequency),指复杂声音中最低且通常情况下最强的频率。通常被认为是声音的基础音调。

当发声体由于振动而发出声音时,声音一般可以分解为许多单纯的正弦波,也就是说所有的自然声音基本都是由许多频率不同的正弦波组成的,其中频率最低的正弦波即为基音,而其他频率较高的正弦波则为泛音。即任何周期性函数都可以进行傅里叶级数分解,均可分解为一个基频正弦波加上许多高次频率的正弦波,高次频率是基频的整倍数(N,只能为整数)。

各个声音之间的区别在于和弦(chord)的不同。之所以能够听出每种乐器都有自己特殊的音色,就是因为它们之间的和弦不同。一个声音的基音与倍音共同组成这个声音的和弦。其中频率最低的和弦是第一和弦,其他的依次是第二和弦、第三和弦、第四和弦,乃至更多的和弦。

2 共振峰和元音舌位的关系

声带产生的声音周期较短、阻尼高,其中包含的频率很多,即声带振动除产生基频外,还会有倍音产生。基频与倍音的频率,取决于肺部用力多少以及声带紧张度如何。这些复合音通过口腔共鸣,有的频率得到加强,有的频率消失。口腔中可以调节的器官较多,包括舌、上腭以及唇的变化都可能影响口腔的形状和阻尼大小,使不同的频率共鸣出来。

当把声道看作一个发音的腔体时,激励的频率达到它的固有频率,则声道会以最大的振幅来振荡,即产生共鸣。一般把这个频率称为共振频率(formant frequency),简称共振峰(formant)。【当声道中的振动频率与输入声音的频率相匹配时,声道会以最大振幅振荡,形成共振现象】
共鸣反应与共鸣器的质量有关,声波碰到硬的东西会反弹回来。口腔里面的肌肉是很软的物质,声波在口腔肌肉上的反弹力没有那么强,口腔肌肉将吸收去一部分声波能量。因此,口腔作为一个共鸣器,它有较大的阻尼。无阻尼的共鸣器,只对一个频率产生共鸣反应,共鸣器阻尼大,则会对比较多的频率产生共鸣反应。通常,不同的元音是由于口腔共鸣的不同形状造成的。

包含口腔在内的声道是一个分布参数系统,它有许多自然谐振频率(在这些频率上其传递函数具有极大值),所以声道是一谐振腔,它放大某些频率成分而衰减其他频率分量。谐振频率由每一瞬间的声道外形决定。讲话时,舌和唇连续运动,使声道常常改变外形和尺寸,随即改变谐振频率。如果声道的截面是均匀的,谐振频率将发生在:

F n = ( 2 n − 1 ) c 4 L ( n = 1 , 2 , 3 , ⋯   ) F_n=\frac{(2n-1)c}{4L}\quad(n=1,2,3,\cdots) Fn=4L(2n1)c(n=1,2,3,)

其中,c为声速,在空气中c=340m/s;L为声道的长度;n为谐振频率的序号。谐振频率即为共振峰。发其他音时,声道的形状很少是均匀断面的。

在这里插入图片描述

元音舌位的“高、低”与第一个共振峰有关,舌位的“前、后”与第二个共振峰有关。用元音的前两个共振峰频率为坐标轴来表示各个元音所在位置的二维图称为声学元音图,如图所示。其中坐标轴是非线性的,以使各元音区域尽可能分离。

在这里插入图片描述

⭐一个元音的第一共振蜂频率越低,这个元音的舌位就越高。一个元音的第一共振峰的频率越高,这个元音的舌位就越低。一个元音的第二共振峰频率越低,这个元音的舌位就越后。一个元音的第二共振峰的频率越高,这个元音的舌位就越前。

3 语音信号在时域和频域的表示

3.1 时域波形

通常是将语音用话筒转换成电信号,再用A/D转换器将其转换成离散的数字采样信号后存入计算机内存中。图(a)是一个女声说的“开始”的时域波形,语音数据是在实验室环境下用普通麦克风录制的。采样频率为16kHz,每个采样点用16位进行量化。图中横轴为时间,纵轴表示信号的幅度。从图中虽然**无法辨别语音波形的细节,但可以看出语音能量的起伏,以及语音信号随时间变化的过程。**图(b)是将“开”的元音部分/ai/拉长后的形状。可以看出,这段语音信号具有很强的准周期性,并具有较强的振幅。它的周期对应的频率就是基音频率。图(c)是/k/辅音的展开图。可以看出,辅音波形类似于白噪声,并且具有很弱的振幅。

在这里插入图片描述

采样率&量化精度

  • 采样率

    当将声音储存至计算机中,必须经过一个录音转换的过程,把声音这种模拟信号转成计算机可以辨识的数字信号,在转换过程中将声波的波形以微分方式切开成许多单位,再把每个切开的声波以一个数值来代表该单位的一个量,以此方式完成采样的工作,而在单位时间内切开的数量便是所谓的采样频率,说明白些,就是模拟转数字时每秒对声波采样的数量。

    在单位时间内采样的数量越多就会越接近原始的模拟信号,在将数字信号还原成模拟信号时也就越能接近真实的原始声音。

  • 量化精度

    量化精度则是对于声波的“振幅”进行切割,形成类似阶梯的度量单位。所以,如果说采样频率是对声波水平进行的X轴切割,那么量化精度则是对Y轴的切割,切割的数量是以最大振幅切成2的n次方计算,n就是bit数。

    举个例子,如果是8bit,那么在振幅方面的采样就有256阶,若是16bit,则振幅的计量单位便会成为65536阶,越多的阶数就越能精确描述每个采样的振幅高度。如此,也就越接近原始声波的“能量”,在还原的过程序也就越接近原始的声音了。

    另外,bit的数目还决定了声波振幅的范围(即动态范围,最大音量与最小音量的差距)。如果这个位数越大,则能够表示的数值越大,描述波形更精确。每一个Bit的数据可以记录约等于6dB动态的信号。一般来说,16Bit可以提供最大96dB的动态范围(加高频颤动后只有92dB)。

    如果系统动态过小,高于动态范围的信号将被削波(Clipping, 高于0dB的溢出信号将被砍掉,会导致噼里啪啦的声音)。

3.2 频域波形

共振峰可以决定信号频谱的总体轮廓或谱包络(spectrum envelope)。一般元音可以有3~5个共振峰。

语音的发音过程中,声道通常都是处于运动状态,这个运动状态的时变过程比振动过程要缓慢得多,因此一般假设语音信号是一种短时平稳信号,在一个很短的时间内(10~30ms)是相对平稳的,但在长时的周期中语音信号的特性会发生变化,这种变化的不同决定了产生语音的不同。根据语音信号的这种短时平稳的特点,在每一时刻都可以用该时刻附近的一短段语音信号分析得到一个频谱。

举例,元音/ai/的频谱特性,其中横轴表示频率,变化范围是采样频率的一半【奈奎斯特采样定理】。纵轴表示该频率的强弱,以分贝(dB)为单位。这里的短时分析采用汉明窗,进行频谱分析的窗长为512个采样点。

在这里插入图片描述

3.3 语谱图

语谱图(一) Spectrogram 的定义与机理-CSDN博客

♥这个博主对于语音的研究比较多,可以多学习

时域分析对信号的 频率特性没有直观解释;频谱分析只能反映出信号的频率变化,而不能表示信号的时间变化特性。由于语音信号是一种短时平稳信号,可以在每个时刻用其附近的短时段语音信号分析得到一种频谱,将语音信号连续地进行这种频谱分析,可以得到一种二维图谱,它的横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小或者色调的浓淡反映相应时刻和相应频率的能量(一般用能量的对数表示,不强调对数的底数)。这种时频图称为语谱图(spectrogram)。它是一种三维频谱,表示语音频谱随时间变化的图形。

用语谱图分析语音被称为语谱分析,记录这种频谱的仪器是语谱仪,可以确定语音的参数,例如共振峰频率和基带频率。语谱图因为不同的黑白程度,形成了不同的纹路,即为“声纹”。

语谱仪实际上是一个带通滤波器组的输出随时间发生连续变化,连续重复进行语音信号频率分析的仪器。带通滤波器有两种带宽可供选择:窄带的频率分辨率为50100Hz,时间分辨率的长度为510ms;宽带为300400Hz,时间分辨率为25ms。窄带语谱图有良好的频率分辨率,有利于显示基音频率及其各次谐波(频率的整数倍),但它的时间分率较差,不利于观察共振峰(声道谐振)的变化;而宽带语谱图正相反,具有良好的时间分辨率及较差的频率分辨率。宽带语谱图能给出语音的共振峰频率及清辅音的能量汇集区,在语谱图里共振峰呈现为黑色的条纹。

A:窄带语谱图采用窄带滤波器组,每个滤波器对语音信号的一个窄频带进行分析。这些窄带频率组件可以看作是在不同频率范围内的独立的分析通道。由于每个通道只关注一个相对较小的频率范围,它可以提供较高的频率分辨率。

❓为什么时间分辨率差,就不便于观察共振峰的变化?

A:当时间分辨率较差时,窄带语谱图难以准确地捕捉信号中短时变化的信息。因为共振峰可能随时间迅速变化,其在频谱中的位置可能会在短时间内发生变动。

窄带语谱图的带宽窄,那么在频率上就“分得开”,即能将语音各次谐波“看得很清楚”,即表现为“横线”。“横”就体现出了频率分辨率高。

  1. 窄带滤波器的频率选择性: 窄带语谱图采用一系列窄带滤波器,每个滤波器负责分析语音信号中的一个特定频带。这些滤波器通常是窄带滤波器,具有较窄的带宽。由于这种窄带滤波器的设计,每个滤波器对特定频率范围的信号更加敏感,而对其他频率的信号则相对不敏感。
  2. 语音谐波的频率关系: 语音中的声音通常由基音频率及其各次谐波组成。这些谐波是基音频率的整数倍。例如,如果基音频率是100 Hz,第一个谐波就是200 Hz,第二个谐波就是300 Hz,以此类推。

当窄带语谱图的窄带滤波器组的中心频率与语音信号的谐波频率相对应时,这些谐波频率将在对应的窄带频带内产生强烈的响应,而其他频率则会受到较弱的响应。

因此,当绘制窄带语谱图时,这些强烈的响应会表现为明显的横线,因为在与谐波频率对应的频带上,能量较高,形成了横向的亮条或线,而其他频率则相对较暗。这种现象使得基音频率及其谐波在图上呈现出清晰的、横向的特征线。

类似的,宽带语谱图的时宽窄,那么在时间上就“分得开”,即能将语音在时间上重复的部分“看得很清楚”,即表现为“竖线”。“竖”就体现出了时间分辨率高。

宽带语谱图在时间上有更好的分辨率,因此能够清晰地显示语音信号在时间轴上的瞬时变化,表现为竖直的特征线。

  1. 宽带滤波器的频率选择性较差: 宽带语谱图通常采用宽带滤波器,这些滤波器在频率上的选择性相对较差。与窄带滤波器不同,它们能够较均匀地对整个频谱范围内的信号进行响应。
  2. 瞬时变化的频谱信息: 语音信号在时间上的瞬时变化,比如元音和辅音的形成,会导致频谱内容发生变化。宽带语谱图通过采用宽带滤波器,能够较好地捕捉这些频谱变化。
  3. 时间上的重复性: 语音中的某些部分可能在时间上重复,尤其是在周期性声音中,如说话中的元音。宽带语谱图由于具有较好的时间分辨率,能够更准确地显示这些重复出现的声学特征。

在这里插入图片描述

元音:不同元音的音色反映在不同的频谱结构中。各元音音色上的差异,可以用前三个共振峰频率来表示。对元音,从其宽带语谱图上可以看出,语谱图呈现出垂直的条纹,由于宽带语谱图滤波器冲激响应的宽度大约与基音周期相同,因此这些垂直条纹的间隔时间即为基音周期。在窄带语谱图中,可以看到元音的共振峰频率及其随时间的变化,并可以看到浊音区的各个谐波。其中共振峰表现为较粗的黑色带,称为*“横杠”(bar)*,该横杠随时间起伏变化。而各个谐波表现为横向的波纹

辅音:辅音一般都比元音短促,而且能量小,发音时声道变化剧烈。在清音期间,看不到浊音周期呈现的垂直条纹,而表现的是细而密的杂乱的纹理,这可以说明清音的类白噪声激励的性质。一般可以用这样几种样式来表示辅音:直切线样式、间断区样式、噪声样式。在发清塞音时,声带是不振动的。在塞音开始的时候必然有一个宁静点。这时在语谱图上会有一条笔直的切线。看到这条切线就可以断定此处是塞音的开头。上图中,100~200ms之间有一条类似的切线,就是因为“开始”中的起始音/k/是一个清塞音。擦音和送气音是一片乱纹。这些乱纹在某些频率区域会比较集中,对应的区域称为强谱区,这是声道对噪声源共鸣作用的结果。不同的辅音,强谱区的分布是不同的。另外,在连续发音时,词与词之间或音节与音节之间,声带往往有简短的宁静。特别是一个音节之后,如果是一个清塞音开头,则两个音节之间会出现一个“间隙”,形成一个间断区。在发清音时,一般声带是不振动的,因此清音的语谱和元音的语谱当然不同。在语谱图上,清音的图谱比较含混,看起来有点杂乱。

当一个辅音与一个元音拼接,例如/d/和/a/拼成/da/的时候,/d/的发音部位是舌头顶齿龈,气流突破此障碍后发音器官迅速向发/a/的部位移动;与此同时,声带开始振动,这样就出现了声带波的形状迅速变化的声带的激励,反映在语谱图上就是弯向元音段的共振峰弯横杠,即所谓的过渡音特性。

3.4 Mel语谱图

可以表示出Mel滤波器的能量随着时间的变化。在Mel语谱图中,横轴为帧号,纵轴表示Mel频带滤波器号,每一个像素点的深浅表示该帧信号在该滤波器上输出的能量大小。具体公式和推导过程后续信号处理再学习补充。

  • 46
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值