机器学习第三十三周周报

研究通过设计的合并深度CNN,结合1D和2DCNN分支,从原始音频和LOG-Mel谱图中学习情感特征。通过超参数优化和迁移学习加速训练,实验结果显示合并CNN在情感分类上性能显著提升,优于传统方法。
摘要由CSDN通过智能技术生成

一、文献阅读

1.文献题目


speech emotion using merged deep CNN

2.文献摘要

This study aims at learning deep features from different data to recognise speech emotion. The authors designed a merged convolutional neural network (CNN), which had two branches, one being one-dimensional (1D) CNN branch and another 2D CNN branch, to learn the high-level features from raw audio clips and log-mel spectrograms. The building of the merged deep CNN consists of two steps. First, one 1D CNN and one 2D CNN architectures were designed and evaluated; then, after the deletion of the second dense layers, the two CNN architectures were merged together. To speed up the training of the merged CNN, transfer learning was introduced in the training. The 1D CNN and 2D CNN were trained first. Then, the learned features of the 1D CNN and 2D CNN were repurposed and transferred to the merged CNN. Finally, the merged deep CNN initialised with transferred features was fine-tuned. Two hyperparameters of the designed architectures were chosen through Bayesian optimisation in the training. The experiments conducted on two benchmark datasets show that the merged deep CNN can improve emotion classification performance significantly.
本研究的目的是从不同的数据中学习深层特征,以识别语音情感。设计了一种合并卷积神经网络(CNN),该网络有两个分支,一个是一维(1D)CNN分支,另一个是2D CNN分支,以从原始音频片段和LOG-Mel谱图中学习高层特征。合并后的深度CNN的建设包括两个步骤。首先,设计和评估了一个一维CNN结构和一个2D CNN结构;然后,在删除第二致密层后,将这两个CNN结构合并在一起。为了加快合并后的CNN的培训速度,在培训中引入了迁移学习。首先训练的是一维CNN和2D CNN。然后,一维CNN和2D CNN的学习特征被重新利用并转移到合并后的CNN。最后,对合并后的深度CNN进行了微调。在训练中,通过贝叶斯优化选择了所设计体系结构的两个超参数。在两个基准数据集上进行的实验表明,合并后的深层CNN能够显著提高情感分类性能。

3.Introduction

一般来说,言语中有两种信息,即语言信息和副语言信息。前者总是指言语的语境或意义;后者则指言语中包含的情感等隐含信息。可以从原始语音数据中提取各种语音特征,如小波特征、基于小波包的特征、多分辨率听觉模型特征和频谱特征。为了识别说话人的情感状态,需要从语音中提取与说话人或词汇内容无关的合适的副语言特征。已经引入了许多深层体系结构来学习识别语音和语音情感的分层特征。这些区域也通过深度学习进行了改革,如深度信念网络(DBN)、卷积神经网络(CNN)和长短期记忆(LSTM)。通过使用单输 入深层网络学习深层特征,在某些应用中取得了更好的结果。

4.相关工作

Stuhlsatz等人引入了几种受限Boltzmann机器(RBM)堆叠的广义判别分析深度神经网络(DNN)来识别语音情感,与以前报道的支持向量机基线相比,获得了非常显著的改善。施密特等人采用基于回归的DBN,该网络配置了三个隐含层,直接从幅度谱中学习特征并识别音乐情感。Le和Provost提出并评估了一套基于隐马尔可夫模型和DBN的混合分类器,并在Friedrich Alexander Universityät(FAU)Aibo上取得了最先进的结果。Hanet al.提出了利用DNN从原始数据中提取高层特征,与传统的情感识别方法相比,语音级情感识别的相对准确率提高了20%。Yelin等人提出了一套DBN模型,并对其进行了评估,结果表明DBN模型能够在不使用深度学习的基线上提高情感分类性能。

5.合并后的深度CNN

5.1设计的CNN架构。

CNN的架构可以通过堆叠多个不同的层来构建。CNN的构建块是一些不同类型的层,例如卷积层、池层、REU层、丢失层、LSTM层和完全连接层。卷积层和池化层是CNN的核心层。卷积层起到特征提取的作用,学习局部特征,将隐含层的感受场限制为局部特征。当卷积核沿着卷积的输入移动时,它形成特征映射。因此,卷积层具有的特征映射的数量等于卷积核的数量。汇聚层起到了非线性下采样的作用,降低了特征的分辨率,使特征具有较强的抗噪声和抗失真能力。
在这里插入图片描述

5.1.1一维CNN架构

该体系结构具有六个1D卷积层(1D卷积1-6)、6个1D最大池层(1D最大池化1-6)和两个完全连接层(全连接1和全连接2)。
在这里插入图片描述
第一卷积层(1D卷积1)具有32个大小为5的卷积核,具有跨度1和有效填充。
如果一维卷积层作为输入,则可以通过将信号与大小为L的卷积核进行卷积来获得信号
在这里插入图片描述
当由1D矢量表示的该信号被传递到第一卷积层(1D卷积1)时,产生32种不同的学习特征。卷积特征可以表示为
在这里插入图片描述
然后,这些特征被传递到大小为4的第一个池化层(1D Max Pooling 1)。Max Pooling是实现池化的最常用的非线性函数,它将输入划分为一组不重叠的区域,并输出每个这样的子区域的最大值。
因此,减少了卷积特征的数量。最大池操作可以表示为函数
在这里插入图片描述
第一个最大卷积层(1D Max Pooling 1)产生的稳健特征在数量减少后被传递给第二卷积层(1D Max Pooling 2),该第二卷积层(1D Max Pooling 2)具有32个大小为5的卷积核。大小为4的第二个最大卷积层(1D Max Pooling 2)将1D卷积2的输出作为输入,以减少学习特征的数量。第三卷积层(1D卷积3)将第二最大池化层(1D最大池化2)的输出作为具有大小为5的核的输入,并给出64个不同的特征。然后,将卷积特征的数量减少大小为4的第三最大池化层(1D最大池化3),并将其传递到第四卷积层(1D卷积4)。第四卷积层(一维卷积4)具有大小为5的核,并提供64种不同的特征。在1D卷积3和1D卷积4中具有相同大小的核的情况下,第五和第六卷积层(1D卷积5和1D卷积6)提供128个不同的特征。最后两个最大池化层(1D最大池化5和1D最大池化6)重复与第一个最大池化层(1D最大池化1)相同的池化选项。它们连接到最后两个卷积层(1D卷积5和1D卷积6)。在被展平之后,由第六个最大汇聚层(1D最大汇聚6)产生的特征被输入到第一个完全连接的层(全连接1)。第二全连接层(全连接2)直接连接到第一全连接层(全连接1)层。完全连接的层可以表示为
在这里插入图片描述

5.1.2 2D CNN架构。

2D CNN架构的构建是为了从手工制作的特征LOG-MEL光谱图中学习深层特征。
该架构具有四个2D卷积层(2D卷积1-4)、两个2D最大池化层(2D最大池化1和2D最大池化2)和两个完全连接层(全连接1和全连接2)。
在这里插入图片描述
第一卷积层(2D卷积1)具有32个大小为3 × 3的卷积核,具有步长1和有效填充。如果2D卷积层的输入为x(i,j),则可以通过将信号与大小为a × b的卷积核进行卷积来获得结果
在这里插入图片描述
当将LOG-MEL谱图输入到第一卷积层(2D卷积1)中时,产生32个各种卷积特征。然后,将卷积后的特征输入到具有32个大小为3 × 3的卷积核的第二卷积层(2D卷积2)中。然后,将通过第二卷积层(2D卷积2)学习的特征输入到大小为2 × 2的第一最大池层(2D Max Pooling 1)中,以减少学习特征的数量。第一个最大池化层(2D最大池化1)的输出被传递到具有大小为3 × 3的核的第三卷积层(2D卷积3),其产生64个不同的特征。在第三卷积层(2D卷积3)中具有相同核大小的第四卷积层(2D卷积4)也提供64个不同的特征。大小为4 × 4的第二最大池化层(2D最大池化2)重复与第一最大池化层(2D最大池化1)相同的操作。然后,由第二最大池化层(2D最大池化2)产生的特征被展平并输入到第一完全连接层(全连接1)。第二全连接层(全连接2)直接连接到第一连接层(全连接1)。2D CNN中也采用了Softmax分类器来识别语音情感。

5.1.3 Merged CNN architecture

构建合并的CNN架构的目的是使用不同维度的CNN分支从不同维度的数据中学习高层特征。所设计的体系结构由一个一维CNN分支和一个2D CNN分支组成。一维CNN分支用于从一维数据中学习深层特征,2D CNN分支用于从2D数据中学习高层特征。
在这里插入图片描述
融合后的深部CNN由设计的一维CNN和2D CNN构成。删除最后一个完全连接的层后,1D CNN和2D CNN被合并为一个层。合并后的层可表示为
在这里插入图片描述

5.2超参数优化。

超参数优化的目标是为深层体系结构选择一组超参数,通常的目标是在独立的数据集上优化体系结构的性能。最常见的超参数优化算法有网格搜索、随机搜索、基于梯度的优化和贝叶斯优化。在一些实验中,与其他方法相比,贝叶斯优化在性能上取得了显著的提高。因此,在我们的实验中,采用该方法来选择所提出的深层体系结构的超参数。贝叶斯优化是一种全局优化的方法,也是一种有效的函数最小化方法。在我们的实验中,使用Hyperopt来优化超参数。Hyperopt定义了一个可以最小化的目标函数,并将其视为随机函数。还将优先置于目标函数之上。根据所收集的函数评估,更新先验以形成目标函数的后验分布。通过使用后验分布来创建捕获函数。然后,迭代地选取超参数。在实验中,我们优化了第一致密层的输出维度和所设计的CNN结构的算法。每个网络参数的分布是由经验确定的。为了优化第一致密层的输出大小,我们选择分布而不是选择(128、256、512)来运行算法。对于优化算法,选择了选择的分布(‘adagrad’,‘Adam’,‘sgd’,‘rmsprop’)。运行优化后,将返回最佳模型。

5.3迁移学习方法。

为了减少训练时间,采用迁移学习方法对合并后的深层CNN进行训练。这种方法总是用于训练大型目标网络,而不会过度拟合。当基本网络学习到的特征,即本文设计的一维CNN和2D CNN被转移到目标网络或合并的深度CNN时,目标网络不需要再次提取公共特征。从而减少了目标网络的训练时间。所设计的体系结构都是在相同的数据库上训练的。因此,采用迁移学习方法可以加快合并CNN结构的训练速度。我们实验中使用的合并的CNN架构有两个分支,一个是一维CNN分支,另一个是2D CNN分支。1D CNN分部与设计的1D CNN有一些相同的层次。当训练的1D CNN的前n层被复制到合并的CNN的1D CNN分支时,该1D CNN的学习特征被转移到合并的CNN的1D CNN分支。2D CNN分部也是如此。在完成专题转移后,合并后的CNN需要进行微调。

6.实验结果

为了加快合并网络的训练速度,采用了迁移学习方法。在选定的两个数据库上进行的实验分为三个阶段。首先,设计的一维和二维CNN被训练成使用贝叶斯优化从原始音频片段和LOG-MEL谱图中学习分层特征。在得到两个优化模型后,将一维和二维CNN的学习特征重新定位并转移到合并后的CNN。合并后的具有转移特征的CNN也通过贝叶斯优化进行了微调。
在这里插入图片描述
在这里插入图片描述

在实验中,当训练过程中验证精度没有提高时,记录最好的预测和拟合模型。验证精度表明了所设计网络的普适性。如果验证精度达到最大,则会有最好的预测和拟合模型。因此,记录的模型将很好地符合实验数据,并具有更好的预测性能来识别语音情感。
与说话人无关的实验使用与上一节相同的方法执行。在这一部分中,实验数据根据被试分为两组。由于所选数据库的情感话语都是由10个说话人进行的,因此选择8个受试者的数据作为训练集,另外两个受试者的数据作为测试集。

在这里插入图片描述
在这里插入图片描述

与其他成熟的方法对比,合并的CNN结构也具有令人满意的性能
在这里插入图片描述

7.结论

合并后的CNN可以从原始音频片段和LOG-Mel谱图中学习可区分的情感特征。在选定的数据库上,双输入CNN的平均识别精度比单输入CNN和大多数传统的SER算法都有优势。合并后的深度网络将两个异构型NN结合在一起,发挥了各自的优势,最终提高了整体性能。

  • 17
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值