摘要:
随着人工智能的兴起,获得更加人性化、智能化的人机交互体验一直备受关注,这使得情感计算成为研究热点之一。作为情感计算研究领域的一个重要分支,情感识别近年来发展迅速,前景广阔。情感识别研究主要的方法有基于语音的情感识别研究、基于图像的情感识别研究和基于多模态融合的情感识别研究。由于单一的语音或图像模态信息所表达的情感信息是不完整的,不能完全满足人们的期望。而多模态融合的情感识别研究综合了各个模态信息,使各模态信息之间能够互补从而达到更好的识别效果。因此本文选择基于语音和图像的多模态情感识别研究。本文选择包含语音和人脸图像两种模态情感材料的英国萨里大学的Surrey Audio-Visual Expressed Emotion(SAVEE)Database作为标准源数据,进行七种情感(生气、厌恶、恐惧、平静、悲伤、惊讶)识别的相关研究,其主要研究内容如下:1)基于语音的情感识别研究。本文提取共92维语音情感特征,这些特征由短时能量、语音持续时间、基音频率、前三共振峰、梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coeddicients,MFCC)的相关统计学参数组成。所有样本特征提取完成之后,在支持向量机(Support Vector Machine,SVM)上进行情感识别实验,得到了较好的分类结果。2)基于人脸图像的情感识别研究。本文分别提取语音段峰值图像的局部二值模式(Local Binary Pattern,LBP)以及序列图像脸部特征点的均值和标准差作为图像情感特征。在所有样本特征提取完成之后,通过SVM进行情感识别实验,并对在不同特征上得到的情感识别结果进行对比。最终基于序列图像脸部特征点特征提取方法取得的识别结果好于基于语音段峰值图像LBP特征提取方法。3)基于语音和图像的多模态融合情感识别研究。本文分别采用特征层融合和决策层融合策略对语音模态信息和图像模态信息进行融合,并在SVM上进行情感识别实验,将其得到的识别结果与单一模态情感识别结果进行对比,并比较特征层融合策略得到的识别结果与决策层融合策略得到的识别结果,验证了基于语音和图像的多模态情感识别比单一模态情感识别表现更佳,且决策层融合效果好于特征层融合,实验表明了决策层融合有助于提高恐惧类情感的识别率。
展开