matlab语音信号的变速_信号与系统 语音学 | 结合语音学的普通话语音信号分析...

其实本来一直就想搞一个信号与系统分析和语音学的交叉专题,借着这次小论文[1]的机会,也差不多搞出来了预期的效果。我们很少了解语言的本质,尤其是母语。某种程度上来看,我们学习母语的过程像是训练一个深度神经网络的过程,我们没法完全解释中间参数的意义,但却能实现很好的母语言语效果。母语的学习过程主要是在幼年(约1-3岁)大脑尚在建立突触的阶段,过了这个阶段我们就没有了学习母语的能力(无法再调整神经网络的结构)。

而且,不同人的母语系统是专门化的,我们可以很清楚地区分清送气辅音和清不送气辅音,即2种送气情形(如汉语拼音t,d),但俄语母语、意大利语母语的人却会产生混淆,因为他们主张清浊对立且浊音清化程度较浅,送气与不送气的清音会被模糊为1种情形。韩国人可以很清楚地区分出送气音-弱送气音-非送气音(如ㅋ ㄱ ㄲ)3种送气情形[2],汉语母语者则会发生混淆。似乎语言能力是针对所处的语言环境里监督训练出来的,只适用于该语言(语音)环境下的语言理解(类似分类、预测问题)。再举个例子,南方地区部分人n、l不分,这是母语语音中缺乏n、l的对立导致的,尽管同样的语音在北方人看来极易区分。

本文利用简单的分析系统,包括短时能量分析系统,短时过零率分析系统对信号进行转换,同时利用快速傅里叶变换结合时域信号对频域进行分析,探讨普通话语音信号的特点及其存在的规律。注意到尽管有些语音频谱上差异较小,我们仍能将其区分为不同语音。

注[1]:本文基本结构与提交的小论文类似,但语言根据推送进行了简化调整

注[2]:维基百科证明紧音并不是浊音,而是发生某种变化的清音

01

语音信号处理手段

语音分帧

语音信号具有时变特性,但在短时间内频谱特性相对稳定。因此一般假设语音信号是一种短时平稳信号,语音信号的分析和处理建立在短时的基础上,将语音信号分段来分析特征,其中每一段称为“语音帧”。将由于语音信号通常在10~30ms内保持相对平稳,因而帧长一般取10~30ms。

时域分析方法

在时域对语音信号进行帧切分之后,就可以在时域对信号做一些变换,语音信号常用的是短时能量分析和短时过零率分析。

短时能量可以看作语音信号的平方经过线性滤波器的输出,与课上所讲的信号能量的定义一致。应用短时能量可以区分清音和浊音,因为浊音的能量远大于清音,也可以用短时能量对有声段和无声段判定。

短时平均过零率指每帧内信号通过零值的次数。短时平均过零率可以在一定程度上反映其频谱性质。

频域分析方法

声门每开启和闭合一次的时间就是基音周期。语音的发音过程中声音通常处于运动状态,这个运动状态的时变过程比振动过程要缓慢的多。通常采用对语音信号加窗函数的方式来处理这一问题。窗函数平滑地在语音信号上滑动,将语音信号分成帧。常见窗函数有:矩形窗、Hamming窗、Hanning窗等。窗口长度的选择需要考虑语音信号的基波周期。通常认为在一个语音帧内应包含1至7个基音周期。

加入窗口函数后,再对语音帧进行FFT快速傅里叶变换得到语音频谱。注意到如果语音信号具有周期性,频谱应该有较为明显的尖峰。

02

现代汉语普通话语音学

为了更好地进行实验,我们需要先从理论语音学的角度对汉语语音进行一定的理解。以下是普通话语音的预备知识。

元音

元音是指气流在发声通道中不受阻塞的音,元音发音时声带均振动,因此都是浊音。描述元音的变量主要包括三个:舌位前后、舌位高低、展唇/圆唇。汉语中主要存在5个元音音位,如下图所示。

8189a9c39fbb5655385be1ad49c19b68.png

注意中元音有众多音位变体,如“歌”中的ɤ(e),“我”中的o(o)。所以分析语音信号时需要格外注意。其中i在z, c, s和zh, ch, sh声母后分别音变为舌尖前元音[ɿ]和舌尖后元音[ʅ]。

辅音

辅音是指气流在发声通道中受到一定阻塞的音,描述辅音的变量包括清浊、送气、发音部位、发音方式等等。发音部位主要是指发音通道受到阻塞的部位,利用口腔中的位置进行描述;发音方式是指发音通道受到阻塞的程度和方式,例如塞音是指发音通道被完全阻塞,气流爆破而出,擦音则是发音通道留有一定的空隙使得气流可以“擦”过。现代汉语的辅音音位共有19个,划分如下图所示。

50c378e596ace223728ebd3650c51102.png

除了上述表格内存在的辅音以外,存在的主要变体为tɕ(j),tɕh(q),ɕ(x)[3]。所以汉语主要有22个辅音语音。

注[3]:(为简单易懂,以下内容采用拼音作为语音标记)j q x 为 g k h 或 z c s 的音位变体,这一音变过程史称尖团合流(针对i、ü元音前的声母,尖音为z c s,团音为j q x。团音由g k h腭化而来,尖团合流是指i、ü元音前的尖音团音均统一为j q x),这一变化的历史不长,以至于威妥玛拼音仍然保留有尖团音未合流的痕迹,甚至保留有团音未颚化的痕迹。举例:清华大学(Tsinghua),“清”字为tsing,即尖音,合流后变为qing;北京大学(Peking),“京”字为king,经颚化与合流后变为jing。尖团合流由于有一部分强制推行的因素,成为了汉语最有名的语音变化之一。但至今,粤语等汉语子语言仍然保留尖团音的对立。

03

实验与分析

本文的实验依托于Matlab对语音信号进行处理。实验材料为1名男生和1名女生的遍历所有现代汉语普通话的元音(不包含复合元音)、辅音发声材料,同时选用谷歌翻译的标准普通话语音作为辅助材料(以下实验结果中会用“男声”,“女声”标注)。其中,由于大部分辅音无法单独成音,辅音部分主要与单元音a结合形成’ga’, ’ka’等音节作为语音材料使用。为避免音调对频率产生影响,实验语音的音节都被读成阴平调(55),保证音调的不变性。

编写matlab程序,实验中先利用时域分析与短时能量分析确定音频的时域特性,并选择元音段或辅音段进行对最基本的语音单元的分析,记录所研究的语音频谱的特点。

音节结构分析

现代汉语的音节结构构成成分包括声母、韵母和超音段成分,声母为辅音,可以缺失,韵母包括韵头、韵腹、韵尾三部分。本文的实验材料中韵母基本上为单元音。以’na’为例,该音节的声母为n,韵母为a,整个音节结构在时域上的表现如图1所示,首先有一段微弱的振动出现,大体上对应着韵头(辅音)部分,之后出现的振幅较大的部分为韵母(元音)部分;再以’an’为例,该音节无声母,韵母为an,其中韵尾为辅音n,整个音节结构在时域上的表现如图2所示,发现结尾处有一段较微弱的振动,大体上对应着韵尾(辅音)部分,前面出现的振幅较大的部分为韵腹(元音)部分。

930b584ecb8fca26251a08b6681ac088.png

图1 音节’na’的时域特性和短时能量特性

ca314daf63c93cb68b18254ddc93ff85.png

图2 音节’an’的时域特性和短时能量特性

总的来看,时域上声母所占的时间长度较短,韵母中的韵尾所占时间也相对较短,而韵母中的非韵尾部分所占时间较长,韵母部分的振幅可能因为发声大小的不同而有所起伏,造成上述现象的原因可能是辅音语音信号由于发声存在受阻过程而包含的相对能量较低,元音语音信号包含的相对能量较高。另外,由于语音信号实际上是连续信号,所以声母与韵母、韵腹与韵尾时域上的界限并不明显,如想观测时长较短的辅音信号,需要仔细选取语音帧。

元音分析

元音的语音材料是对应汉语拼音a、o、e、i、u、ü的成音节的六个单元音。除此之外,还对两个舌尖元音进行了分析。由于单元音不涉及任何语音变化过程,所以其发声过程中的频谱大体上保持不变。八个单元音的FFT结果罗列如图3所示。由于元音响度较大,所以元音在频域的幅值很大,并且由于元音呈明显的周期性(具有基音周期),所以频谱由一系列尖峰构成。

e53f5c547d5a72d7b32d76ecb5e9058a.png

图3 单元音的频谱分析

利用一级、二级共振峰的方法对元音频谱进行分析。共振峰是指由冲激函数组成的冲激频谱的包络线的峰(注意此句话的意思是并非图4FFT后频谱本身的峰值,还需进行包络线的描绘)。根据图4,大致画出包络线再进行观察,对第一共振峰位置进行大致估计,a约为700Hz,o约为500Hz,e约为500Hz,i约为250Hz,u约为250Hz,两个舌尖元音的第一共振峰也约为250Hz。结合表1的语音学特性,发现随着元音舌位的抬高,第一共振峰的频率减小。

第二共振峰在某些音的频谱中表现不明显,可能是因为第一共振峰与第二共振峰有部分重合,例如u,也可能是因为第二共振峰的幅值过小,例如i。整体来就按,控制舌位高低一定,后元音如u, o等均有着较低的第二共振峰频率,而前元音如i有着较高的第二共振峰频率。

另外观察到对同一位置的圆唇元音来说,非圆唇元音有着更好的第二共振峰频率,这一点可以通过观察(ü, i)或(o, e)得出。将元音用第一共振峰和第二共振峰的对数坐标表示,可以粗略绘制出元音分布图,如图4。[5]

e3b4b9fb07fdafa40377204956f9cf6f.png

图4:实验中数据画出的大致的普通话元音分布图

注[5]:第一共振峰和第二共振峰数值完全是凭包络线的感觉看出来的,所以这个图没放到论文里。

所以元音的频谱特点可以归结为:舌位高低决定了第一共振峰频率,舌位前后决定了第二共振峰频率,非圆唇动作会使第二共振峰频率增加,这同时也验证了国际音标元音分布图(图5)的规律性。事实上,国际音标表就是根据类似的实验方法,得出类似图4的分布图。也很容易看出图4中元音位置与图5中对应元音位置大致相同。

9ae8307da2f542e0ea1855c9f9d80997.png

图5 国际音标元音表:从上至下可以看作第一共振峰频率不断增加,从右至左可以看作第二共振峰频率不断增加

辅音分析

辅音可根据发声时声带是否发生振动而分为清辅音和浊辅音。声带发生振动时,语音信号会有一个较为明显的基音周期,也就是语音帧内语音信号呈周期性。所以浊音(包括元音和浊辅音)利用傅里叶变换时可观察到明显的尖峰,但清辅音在发音时由于声带不振动,实验中发现其对应的频谱往往比较杂乱。所以浊辅音的FFT可信度较高,清辅音往往表现出来的信号是没有明确规律的噪声,FFT可信度较低,意味着清辅音频谱可能会在短时间内发生较大的变化,表现出连续频谱的特点。

辅音语音帧的切分仅仅利用时域波形有时比较困难。对于浊辅音,经过实验发现,利用短时过零率的分界线可以实现元音与辅音之间较好的切分。

017864c44b487899de0bc6926880b906.png

图6 普通话浊辅音频谱,擦音r含有的气流使得频谱较乱

对清辅音的分析发现,清辅音发音时时域上并不表现出明显的周期性,表现出来噪声的一些性质,但可以通过频谱中的能量集中区域去区分不同清辅音。清辅音发声时声带不振动,因此很难切分出清辅音的语音帧,尤其是发音时间较短的塞音。对部分清辅音的频谱分析如图7、8、9所示。可以看出大多数不同清辅音的频谱有不同的能量集中区域,并且发音位置相同的辅音频谱形状类似。某些辅音频谱不稳定的可能原因是发音涉及多个过程,例如送气辅音的送气过程在频域上不能很好地体现。

2ae53d1d0ddf30fca98d1546241aa023.png

图7 清塞音频谱

ea2908c510fcc26f31c2f83f104c5ccd.png

图8 塞擦音频谱

0eebbd1e1a3825983afaea28b0271144.png

图9 擦音频谱

送气与否是汉语语音中最重要的对立特点之一(如p, b)。清辅音中送气与否的特征在时域上表现较为明显,清辅音的辅音部分占据时间更长,表现出来较为明显的送气过程,如图10所示。

b4d0675d324c55b6ed70ef2eade933ba.png

图10 不送气辅音d和送气辅音t的对比,后者辅音部分更细长,代表送气过程

语音的个体差异

语音有普遍的个体差异,每一个发出声音的音色都不尽相同。如图11所示,可以观察出两者的基音频率有所不同,男生的基音频率较低而女生的基音频率较高。并且女生的第一、二共振峰频率相对于男声而言较高。注意到由于实验环境以及其他相关因素的不同,整体频谱形状也会略有差异。

8d34d855a1b7351d71f767bebfe8f8ce.png

图11 元音a和u:男声和女声的差别

04

总结

本研究利用短时能量、过零率分析以及傅里叶分析对普通话的语音信号进行了简要分析。实验结果表明,辅音和元音在语音信号的时域上有相对应的区域,时域波形展现出明显的音节结构。对于元音,舌位高低与前后、是否圆唇在频域上表现为第一共振峰和第二共振峰的位置。对于辅音,浊辅音具有显著的周期性,频谱可以作为浊辅音的特征;对于清辅音,由于时域上表现不出明显的周期性,所以频谱较为杂乱,但不同的清辅音的能量集中区域有所不同;另外,送气辅音相对于非送气的辅音在时域上表现出较为明显的送气区间。语音存在个体间的差异,但基本特征相似,所以不同人之间也能进行无障碍的交流。本研究仍然有一些不足之处:实验样本过少,数据过少;没有探讨复元音的发音方式;没有考虑到元音对于辅音发音的可能影响;实验方法较为简单,无法进行深入分析等等。关于普通话最基本语音信号的分析,仍然需要进一步实验得以完善。

本文均为原创内容,盗版必究 :)

论文作者:李炜、范雨晗、董一凡

下篇推送内容预计是浮点数CPU。。。但不知道什么时候能做完(笑

2fdc038d64cbd0e5e374ea7a88c335d1.png
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值