1.声强和声强级
在物理学中,把单位时间内通过垂直于声波传播方向的单位面积的平均声能,称为声强。声强用I表示,单位为瓦/平米。实验的研究表明,人对声音强弱的感觉并不是与声强成正比,而是与其对数成正比的。所以一般声强用声强级来表示。
SIL=10lg[I/I’]=10lg(I/I’)
式中I为声强,I’=10e-12瓦/平米称为基准声强,声强级的常用单位是分贝(dB)。
2.响度
响度时一种主观心理量,是人类主观感觉到的声音强弱程度。一般来说,声音频率一定时,声强越强,响度也越大。但是响度与频率有关,相同的声强,频率不同时,响度也可能不同。响度若用对数值表示,即为响度级,响度级的单位定义为方,符号为phon。根据国际协议规定,0dB声级的1000Hz纯音的响度级定义为0 phon,n dB声级的1000Hz纯音的响度级就是n phon。其它频率的声级与响度级的对应关系要从等响度曲线查出。
等响度曲线与声强级的关系
3.音高
音高也是一种主观心理量,是人类听觉系统对于声音频率高低的感觉。音高的单位是美尔(Mel)。响度级为40 phon,频率为1000Hz的声音的音高定义为1000Mel。
主观音高与实际频率的关系
4基音周期和基音频率
4.1 基音周期的概念
人在发音时,声带振动产生浊音(清音由空气摩擦产生)。浊音的发音过程是:来自肺部的气流冲击声门,造成声门的一张一合,形成一系列准周期的气流脉冲,经过声道(含口腔、鼻腔)的谐振及唇齿辐射最终形成语音信号。故浊音波形呈现一定的准周期性。所谓基音周期,就是对这种准周期而言的。它反映了声门相邻两次开闭之间的时间间隔或开闭的频率。
基音周期是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征。基音周期信息在语音识别、说话人识别、语音分析与语音合成,以及低码率语音编码、发音系统疾病诊断、听觉残障者的语言指导等多个领域有着广泛的应用。(因为女性基频比男性高,所以有些算法中使用基频来区分性别,还挺准的)
4.2基音周期的估算方法
基音周期的估算方法很多,比较常用的有自相关法,倒谱法(我们提基频用的倒谱法),平均幅度差函数法,线性预测法,小波—自相关函数法,谱减—自相关函数法等。下面简单介绍用自相关法提取基频。
预处理:
为了提高基音检测的可靠性,有人提出了端点检测和带通数字滤波器两种预处理方法对原始信号进行预处理。在提取基频时端点检测比一般端点检测更为严格(一般端点检测会保留语音有话段的头和尾,以避免把有用信息当作噪声滤除,但头和尾不包括基频信息,所以在进行提取基音的端点检测时阈值设定更为严格,滤去头部和尾部)。用带通滤波器预处理的目的是为了防止共振峰第一峰值的干扰,一般带通滤波器的频率范围选为60~500Hz。
下图给出青年男女的基频范围图:
自相关法:
短时自相关函数的定义为 其中k是时间的延迟量,N为帧长,短时自相关函数具有以下重要性质。若当原信号具有周期性,那么它的自相关函数也具有周期性,并且周期性与原信号的周期相同。且在K等于周期整数倍时会出现峰值。清音信号无周期性,它的自相关函数会随着K的增大呈衰减趋势,浊音具有周期性,它的R(k)在基因周期整数倍上具有峰值,通常取第一最大峰值点作为基因周期点。自相关函数法基音检测正是利用这一性质来进行基因周期检查的。
5信噪比
定义: