论文笔记

本文探讨了语音情感识别的重要性,重点研究了基于卷积神经网络(CNN)的改进算法CFSNNs。通过特征选择代替CNN的子采样层,解决了特征丢失导致的分类准确率下降问题。实验表明,CFSNNs在多种语音情感数据库上取得优秀性能,特别是在增加训练样本数量时,准确率提升,证实了该算法的潜力。
摘要由CSDN通过智能技术生成

论文笔记 ---- 基于卷积神经网络的语音情感识别

论文题目:基于卷积神经网络的语音情感识别
论文作者:陈晓东

摘要

通过研究语音情感识别,能使得计算机在人机交互过程中做出更加人性化和更有针对性的反应。深度学习是目前最接近人脑的人工智能学习方法。深度学习有很多常用的模型,比如自编码器、限制玻尔兹曼机、卷积神经网络等等。其中,卷积神经网络已经应用在图像识别、语音识别、广告推荐系统等领域,而且也取得了很不错的进展。 经过深入研究发现,当使用传统的卷积神经网络进行语音情感识别时,卷积神经网络的子采样层在实现维数约减的效果的同时,也可能导致大部分有用的特征丢失,从而降低了语音情感识别分类的准确率。本文提出一个基于卷积神经网络的改进算法,在该算法中,使用特征选择的办法来代替卷积神经网络子采样层的简单处理,称为卷积特征选择神经网络。

介绍

语音情感识别(Speech Emotion Recognition,SER),顾名思义,就是通过对人类的语音进行分析,使得计算机能够识别出人类语音中的情感。一般的语音情感识别的研究工作主要是以下几个方面:搭建数据库,建立描述模型,提取特征,特征选择以及识别算法。建立一个样本量大,样本具有代表性,样本标签具有平衡性的数据库是进行语音情感识别的基本条件。建立描述模型,就是对语音的情感的描述,并且将语音情感做分
门别类。提取语音的特征情感,就是对那些能表现出这段语音的情感的特征提取出来。特征选择的作用主要有两个,一个是将原本提取出来的特征进行选择,除去那些会影响结果准确率的特征,另外一个是降低特征的维度,避免维度灾难。最后一个,识别算法也就是机器学习中的分类算法。大部分机器学习的分类方法都适合语音情感识别算法,如贝叶斯网络[1],支持向量机[2,7],神经网络[3],隐马尔科夫模型[4,5],高斯混合模型[6,7],集成算法[8],近邻算法[9]等等,这些算法都已经取得了很好的成功。

语音情感识别基本理论

  1. 语音情感识别流程:
    在这里插入图片描述
  2. 语音情感数据库介绍
    语音情感数据库的好坏直接影响并且决定了语音情感识别系统的性能的好坏。在语音情感识别的领域中,语音情感数据库没有统一的建立标准,并且有多种分类方式。按照应用目标的方式,可以分为合成型以及识别型;按照语音语种的不同,有可以分为英语、汉语与德语;根据情感标注形式的不同,语音情感数据库还可以分为离散情感数据库与维度情感数据库[13]。就国内外的研究状况而言,还是离散语音情感数据库比较多。
    代表性的数据库
  • Belfast 英语情感数据库[14,15]
  • 德国柏林工业大学录制柏林语音情感数据库(Berlin emotional speechdatabase,EMODB)[16]
  • 儿童语音录制的 FAU AIBO 儿童德语情感语音库[17]
  • Surrey 视听表情情感数据库 ,从标准的 TIMIT 语音识别库中选取的语料组成的 Surrey 视听表情情感数据库库(Surrey Audio-Visual Expressed Emotion Database, SAVEE)[19]
  • 日本的研究机构录制的 Crest 情绪语料库
  • 汉语为语种的语音情感数据库中科院自动化所语音情感数据库(Institute of Automation, Chinese Academy of Sciences,CASIA)[18]
  • ACCorpus 系列汉语情感数据库
  1. 语音信号预处理
    语音信号的预处理也可以称之为前端处理。语音信号的预处理有很多方面的内容,但是,就一般情况上来讲,无非是这样的主要步骤:采样和量化,预加重和分帧加窗等。

  2. 语音信号采样与量化
    原始的语音信号是一个连续的模拟信号,需要对原始信号进行采样,使其转化成为时间轴上离散的数据。就采样率而言,是不应该太高,也不能太低,是一个经验值。常用的采样率为 16kHz,8kHz 等。原始语音信号经过采样后在得到了时间离散但是幅度连续的信号,因此必需对这个语音信号再进行量化处理。常用的量化方法有均匀量化与非均匀量化。

  3. 语音信号分帧加窗
    语音信号就整体而言,是一个连续的适时变化的过程,但是,在一个很短的时间段里面,语音信号可以看作是一个稳定的状态,也称作准稳态。我们会把语音信号进行分帧,每一帧的长度大概是 20ms~30ms,在这个很小的时间段里面,语音信号的大小便是稳定的。
    由于人说话时并不是间断的,即相邻之间的帧是有相关性的,所以前后两帧之间应该有重叠部分,也就是帧移【加上帧移后,处理之后的语音信号跟实际语音信号更接近】。分帧与帧移之间的关系如下:
    在这里插入图片描述
    帧之后原本的语音信号变成了有限信号,导致在调用傅立叶变换函数的时候会致使高频部分泄露,因此,分帧之后的信号通过加窗(矩形窗和汉明窗)处理来降低泄露。

n many data analysis tasks, one is often confronted with very high dimensional data. Feature selection techniques are designed to find the relevant feature subset of the original features which can facilitate clustering, classification and retrieval. The feature selection problem is essentially a combinatorial optimization problem which is computationally expensive. Traditional feature selection methods address this issue by selecting the top ranked features based on certain scores computed independently for each feature. These approaches neglect the possible correlation between different features and thus can not produce an optimal feature subset. Inspired from the recent developments on manifold learning and L1-regularized models for subset selection, we propose here a new approach, called {\em Multi-Cluster/Class Feature Selection} (MCFS), for feature selection. Specifically, we select those features such that the multi-cluster/class structure of the data can be best preserved. The corresponding optimization problem can be efficiently solved since it only involves a sparse eigen-problem and a L1-regularized least squares problem. It is important to note that MCFS can be applied in superised, unsupervised and semi-supervised cases. If you find these algoirthms useful, we appreciate it very much if you can cite our following works: Papers Deng Cai, Chiyuan Zhang, Xiaofei He, "Unsupervised Feature Selection for Multi-cluster Data", 16th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD'10), July 2010. Bibtex source Xiaofei He, Deng Cai, and Partha Niyogi, "Laplacian Score for Feature Selection", Advances in Neural Information Processing Systems 18 (NIPS'05), Vancouver, Canada, 2005 Bibtex source
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值