论文笔记 ---- 基于卷积神经网络的语音情感识别
论文题目:基于卷积神经网络的语音情感识别
论文作者:陈晓东
摘要
通过研究语音情感识别,能使得计算机在人机交互过程中做出更加人性化和更有针对性的反应。深度学习是目前最接近人脑的人工智能学习方法。深度学习有很多常用的模型,比如自编码器、限制玻尔兹曼机、卷积神经网络等等。其中,卷积神经网络已经应用在图像识别、语音识别、广告推荐系统等领域,而且也取得了很不错的进展。 经过深入研究发现,当使用传统的卷积神经网络进行语音情感识别时,卷积神经网络的子采样层在实现维数约减的效果的同时,也可能导致大部分有用的特征丢失,从而降低了语音情感识别分类的准确率。本文提出一个基于卷积神经网络的改进算法,在该算法中,使用特征选择的办法来代替卷积神经网络子采样层的简单处理,称为卷积特征选择神经网络。
介绍
语音情感识别(Speech Emotion Recognition,SER),顾名思义,就是通过对人类的语音进行分析,使得计算机能够识别出人类语音中的情感。一般的语音情感识别的研究工作主要是以下几个方面:搭建数据库,建立描述模型,提取特征,特征选择以及识别算法。建立一个样本量大,样本具有代表性,样本标签具有平衡性的数据库是进行语音情感识别的基本条件。建立描述模型,就是对语音的情感的描述,并且将语音情感做分
门别类。提取语音的特征情感,就是对那些能表现出这段语音的情感的特征提取出来。特征选择的作用主要有两个,一个是将原本提取出来的特征进行选择,除去那些会影响结果准确率的特征,另外一个是降低特征的维度,避免维度灾难。最后一个,识别算法也就是机器学习中的分类算法。大部分机器学习的分类方法都适合语音情感识别算法,如贝叶斯网络[1],支持向量机[2,7],神经网络[3],隐马尔科夫模型[4,5],高斯混合模型[6,7],集成算法[8],近邻算法[9]等等,这些算法都已经取得了很好的成功。
语音情感识别基本理论
- 语音情感识别流程:
- 语音情感数据库介绍
语音情感数据库的好坏直接影响并且决定了语音情感识别系统的性能的好坏。在语音情感识别的领域中,语音情感数据库没有统一的建立标准,并且有多种分类方式。按照应用目标的方式,可以分为合成型以及识别型;按照语音语种的不同,有可以分为英语、汉语与德语;根据情感标注形式的不同,语音情感数据库还可以分为离散情感数据库与维度情感数据库[13]。就国内外的研究状况而言,还是离散语音情感数据库比较多。
代表性的数据库:
- Belfast 英语情感数据库[14,15]
- 德国柏林工业大学录制柏林语音情感数据库(Berlin emotional speechdatabase,EMODB)[16]
- 儿童语音录制的 FAU AIBO 儿童德语情感语音库[17]
- Surrey 视听表情情感数据库 ,从标准的 TIMIT 语音识别库中选取的语料组成的 Surrey 视听表情情感数据库库(Surrey Audio-Visual Expressed Emotion Database, SAVEE)[19]
- 日本的研究机构录制的 Crest 情绪语料库
- 汉语为语种的语音情感数据库中科院自动化所语音情感数据库(Institute of Automation, Chinese Academy of Sciences,CASIA)[18]
- ACCorpus 系列汉语情感数据库
-
语音信号预处理
语音信号的预处理也可以称之为前端处理。语音信号的预处理有很多方面的内容,但是,就一般情况上来讲,无非是这样的主要步骤:采样和量化,预加重和分帧加窗等。 -
语音信号采样与量化
原始的语音信号是一个连续的模拟信号,需要对原始信号进行采样,使其转化成为时间轴上离散的数据。就采样率而言,是不应该太高,也不能太低,是一个经验值。常用的采样率为 16kHz,8kHz 等。原始语音信号经过采样后在得到了时间离散但是幅度连续的信号,因此必需对这个语音信号再进行量化处理。常用的量化方法有均匀量化与非均匀量化。 -
语音信号分帧加窗
语音信号就整体而言,是一个连续的适时变化的过程,但是,在一个很短的时间段里面,语音信号可以看作是一个稳定的状态,也称作准稳态。我们会把语音信号进行分帧,每一帧的长度大概是 20ms~30ms,在这个很小的时间段里面,语音信号的大小便是稳定的。
由于人说话时并不是间断的,即相邻之间的帧是有相关性的,所以前后两帧之间应该有重叠部分,也就是帧移【加上帧移后,处理之后的语音信号跟实际语音信号更接近】。分帧与帧移之间的关系如下:
帧之后原本的语音信号变成了有限信号,导致在调用傅立叶变换函数的时候会致使高频部分泄露,因此,分帧之后的信号通过加窗(矩形窗和汉明窗)处理来降低泄露。