声纹识别技术[1]为生物识别技术的一种,也称为说话人识别,分为说话人辨认和说话人确认[2]。目前,市场上已经出现了一些声纹识别的应用,比如在军事情报方面,用于电话领域的监听与追踪;在监狱管理中,用于亲情通话对象的管控;在司法取证方面,语音声纹分析识别用于司法鉴定,还有社保身份认证、电话语音声纹考勤甚至现在非常流行的声纹锁屏[3]等等。
每个人的说话声音由于音色的不同可以被区分开来,本文所涉及到的声纹识别系统软件的设计[4]便是提取了声纹中的特征参数,把它作为本系统声纹识别技术的依据。与此同时,声纹识别分为文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种[4]。本识别系统为与文本相关[5]的声纹识别系统,要求用户按照规定的内容发音,建立好说话人的声纹模型,在后期进行语音识别时需要按规定的内容发音进而进行说话人身份的辨别。
1 声纹识别系统设计
本系统整体流程分为设计分为5步:预处理、提取特征参数(基音周期、倒谱系数等)、建立参考模型、带入测试模型、进行匹配。
(1)预处理:包括采样和量化(即A/D转换)、预加重处理、加窗、依据短时能量谱的语音端点检测等几个处理过程。
(2)提取特征参数:为了能够表征说话人语音中说话人特定器官结构或习惯行为,便需要提取特征参数,并且该特征参数对同一说话人应具有相对稳定性。
①基音周期[6]:产生发音时声门的开启和闭合引起声带的周期性振动,形成周期性的脉冲串,用来描述这一串脉冲气流的周期称为基音周期。这种参数的提取主要是基于说话人发声器官,如声门、声道和鼻腔等的特殊结构而提取出说话人语音的短时谱特征(即基音频率谱及其轮廓)。
②倒谱系数[7]:目前主流的声纹特征参数有LPC以及基于Mel频率的倒谱系数(Mel—frequency cepstral coefficients,MFCC)。实验中证明,MFCC是目前声纹特征中识别率最高的一种,本系统便是提取Mel频率倒谱系数MFCC用来模拟人耳听觉系统的感知能力,描述语音信号在频率域上的能量分布。Mel倒谱系数MFCC的提取过程如下:
A.对语音信号进行预处理。
B.离散傅里叶变换(DFT):是信号完成从时域至频域的转换。
C.生成Mel滤波器组。
D.计算经Mel滤波器组加权后的能量值。
E.做离散余弦DCT变换。
(3)建立参考模型:常见的识别模型有模板模型(动态时间规整方法DTW、矢量量化方法VQ)、概率模型(隐马尔科夫模型HMM、高斯混合模型GMM),以及目前正在发展中的人工神经网络(ANN)方法。本实验采用的隐马尔科夫模型HMM[8],并将该模型确定为本系统的模式匹配方法。使用HMM模型可以用短时模型描述平稳段的信号,而且还可以解决每个短时平稳段是如何转变到下一个短时平稳段的问题。
本过程目的是对所提取出来的说话人语音特征进行学习训练,建立声纹模板或语音模型库,或对系统中已有的声纹模板或语音模型库进行适应性修改。
(4)带入测试模型:将用于测试的语音样本参数代入,得测试模型,与参考模型一一匹配。
(5)进行匹配:在识别过程中,声纹识别系统要根据系统已有的声纹模板或语音模型库对输入语音的特征参数进行模式匹配计算,从而实现识别判断,得出识别结果。