基于音频和文本的多模态语音情感识别
语音情感识别是一项具有挑战性的任务,在构建性能良好的分类器时,广泛依赖于使用音频功能的模型。本文提出了一种新的深度双循环编码器模型,该模型同时利用文本数据和音频信号来更好地理解语音数据。由于情感对话是由声音和口语内容组成的,因此我们的模型使用双循环神经网络(RNN)对音频和文本序列中的信息进行编码,然后结合这些信息源中的信息来预测情感类。该体系结构从信号级到语言级对语音数据进行分析,从而比关注音频特性的模型更全面地利用数据中的信息。为了研究该模型的有效性和性能,进行了大量的实验。当模型应用于IEMOcap数据集时,我们提出的模型在将数据分配给四种情绪类别(即愤怒、快乐、悲伤和中性)中的一种方面优于以前的最先进方法,精度从68.8%到71.8%不等。
关键词:语音情感识别、计算辅助语言学、深度学习、自然语言处理
1.介绍
最近,深度学习算法已经成功地解决了各种领域的问题,如图像分类、机器翻译、语音识别、文本语音生成和其他机器学习相关领域[1、2、3]。同样,当深度学习算法应用于统计语音处理时,性能也得到了实质性的提高[4]。这些基本的改进使研究人员研究了与人类本性有关的其他课题,这些课题长期以来都是研究对象。其中一个主题涉及理解人类情感并通过机器智能(如情感对话模型)反映出来[5,6]。
在开发情感感知智能的过程中,第一步是建立强大的情感分类器,无论应用程序如何,都能显示出良好的性能;这个结果出现在过程中。
希腊Athens被认为是情感计算的基本研究目标之一[7]。尤其是语音情感识别任务是副语言学领域中最重要的问题之一。这一领域最近扩大了其应用范围,因为它是优化人机交互(包括对话系统)的关键因素。语音情感识别的目标是预测语音的情感内容,并根据几个标签(即快乐、悲伤、中性和愤怒)中的一个对语音进行分类。为了提高情绪分类器的性能,人们采用了各种类型的深度学习方法,但由于多种原因,这项任务仍然具有挑战性。首先,由于与人类参与相关的成本,没有足够的数据来训练复杂的基于神经网络的模型。第二,情感特征必须从低级语言信号中学习。基于特征的模型在应用于此问题时显示的技能有限。
为了克服这些局限性,我们提出了一种使用高级文本转录和低级音频信号的模型,以便在更大程度上利用低资源数据集中包含的信息。鉴于自动语音识别(ASR)技术(8、3、9、10)的最新改进,语音转录可以使用具有相当技能的音频信号进行。句子[11]所包含的情感词,如“可爱”和“棒极了”,与一般(非情感)词(如“人”和“天”)相比,具有强烈的情感性,因此,我们假设语音情感识别模型将从高级文本输入的结合中受益。
在本文中,我们提出了一种新的深度双循环编码器模型,该模型同时利用音频和文本数据识别语音中的情绪。为了研究该模型的有效性和性能,进行了大量的实验。我们提出的模型在应用于IEMOcap数据集(研究最为充分的数据集之一)时,比以前的最先进方法有68.8%到71.8%的优势。在对模型进行误差分析的基础上,证明了所提出的模型能够准确识别情绪类。此外,以前的模型中经常出现的中性类错误分类偏差,主要集中在音频特性上,在我们的模型中不太明显。
2.相关工作
经典的机器学习算法,如隐马尔可夫模型(HMMS)、支持向量机(SVMS)和基于决策树的方法,已经被用于语音情感识别问题[12、13、14]。近年来,为了提高语音情感识别的性能,研究者提出了各种基于神经网络的结构。一项初步研究利用深度神经网络(dnns)从原始音频数据中提取高级特征