检信智能语音情感识别-基于SVM的语音情感识别系统设计

1  引言
随着信息技术的不断发展,情感信息处理及识别正在受到学者越来越广泛的重视。语音信号中,除了与语言内容相关的信息之外,还包含着说话人的情感信息。这些情感信息在交流中同样具有着重要的作用。不同的情感一般是由说话人通过调整发音器官的动作,改变了语音信号的声学特征所表达出来的。这些特征包括音质特征、韵律特征、共振峰特征等等。

在相对研究较少的汉语情感识别方面,我们在赵力[2]、蒋丹宁[4]等人所做工作的基础之上,

建立情感语音数据库是汉语普通话情感语音识别研究的基础。为此我们建立了一个小规模的普通话情感语音数据库,进而对数据库中的各种声学特征与情感状态之间的关系作了统计分析。

本文组织如下:第二章介绍了语音情感信号的采集和数据库的建立;第三章介绍了从情感语音数据库中提取基音、能量、共振峰等特征的方法;第四章介绍了分类器的设计和各种特征参数与情感的统计关系;最后一章给出了分类的结论和需要进行的后续工作。

 2  情感语音信号的采集 
本文所研究的情感语料对单个特定人共包括5类情感:愤怒、平静、悲伤、高兴、惊讶;对三个人组成的特定人群包括3类情感:愤怒、悲伤、平静。共有超过500句的情感语句,包括了陈述句、祈使句、疑问句等句子类型,以及各种声调组合及语句长度等情况。为方便情感的表达,不同的情感语音文本不完全相同。录音者就是本文的三位作者。录音软件为CoolEdit2000,语音的文件格式为单声道,16KHz采样,量化比特数为16。

为了检验所收集的语音情感的有效性,我们找了另外3位同学,随机播放所录制的情感语音,要求他们通过主观评判说出所播放语音的情感类别,实验结果如表1。根据听取结果剔除了一些语句,最后采用了的情感语句共480句。

                                                                        


在能量方面,考虑到音量的绝对大小并不应该成为表达情感的主要参数,所以我们主要研究了能量变化率等相对变化的特征参数。

其中重音特征能够把情感区分为“愤怒、惊讶、高兴”组成的激动类情感和“平静、悲伤”组成的平缓类情感。

表4:能量参数的统计结果

 

激动+平缓

 4  语音情感的识别 
§4.1  采用高斯分布模型的分类 
实验中我们采用的是一种比较简单的高斯分布模型,将每类特征的分布视为多个高斯分布的加权和。公式描述为:,其中,M为高斯分布的个数,分别为第i个高斯分布的均值和方差。最后加权和概率最大的类别C即为分类结果。

§4.2 SVM分类器的原理   
SVM法即支持向量机(Support Vector Machine)法,由Vapnik等人于1995年提出,具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的分准率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果。支持向量机算法的目的在于寻找一个超平面H(d),该超平面可以将训练集中的数据分开,且与类域边界的沿垂直于该超平面方向的距离最大,故SVM法亦被称为最大边缘(maximum margin)算法。待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响,SVM法对小样本情况下的自动分类有着较好的分类结果.

 

SVM方法是通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。简单地说,就是升维和线性化。升维,就是把样本向高维空间做映射,一般情况下这会增加计算的复杂性,甚至会引起“维数灾难”,因而人们很少问津。但是作为分类、回归等问题来说,很可能在低维样本空间无法线性处理的样本集,在高维特征空间中却可以通过一个线性超平面实现线性划分(或回归)。一般的升维都会带来计算的复杂化,SVM方法巧妙地解决了这个难题:应用核函数的展开定理,就不需要知道非线性映射的显式表达式;由于是在高维特征空间中建立线性学习机,所以与线性模型相比,不但几乎不增加计算的复杂性,而且在某种程度上避免了“维数灾难”。这一切要归功于核函数的展开和计算理论。  选择不同的核函数,可以生成不同的SVM,常用的核函数有以下4种:

(1)线性核函数K(x,y)=x·y;

(2)多项式核函数K(x,y)=[(x·y)+1]^d;

(3)径向基函数K(x,y)=exp(-|x-y|^2/d^2);

(4)二层神经网络核函数K(x,y)=tanh(a(x·y)+b);

§4.3  数据分析及整理  
在提取了前面的特征参数之后,通过分类器对其进行了分类,结果列于下面的表5至表10中。

下面的表5表6反映了单个特定人情况下训练集与测试集数目关系对正确率的影响。

表格5:(单个特定人)三种特征下训练集与测试集数目关系对正确率的影响


5  实验结果 
§5.1  实验结果的小结 
经过特征的提取和分析,我们发现,“基音频率的均值”、“第一共振峰的均值”这两个特征具有最好的区分效果,“能量变化率的方差”、“能量变化率的变化率”、“基频最大值”等特征也具有一定的区分效果。

对单个特定人的愤怒、悲伤、惊讶、高兴、平静五种情感区分,采用“基音频率的均值”、“第一共振峰的均值”的两个特征具有最好的区分效果,识别正确率平均可达93.7%,其中愤怒和高兴两种情绪比较容易混淆。

对三个特定人组成的特定人群的愤怒、悲伤、平静三种情感区分,采用“基音频率的均值”、“第一共振峰的均值”以及“能量变化率的方差”的三个特征具有最好的区分效果,识别正确率平均可达94.4%。
 

展开阅读全文

没有更多推荐了,返回首页