基于时频表征与卷积神经网络的情绪识别

情绪由各种情况下的认知逻辑反应组成,这种心理反应源于生理、认知、行为的变化。脑电图(EEG)信号为情绪识别提供了非侵入性、非放射性的解决方案,情绪的准确、自动分类可以促进人机界面的发展。本文提出通过不同卷积神经网络(CNN)来自动提取和分类特征,首先使用平滑伪韦格纳分布将滤波后的EEG转换为时频表征图像,图像输入预训练的AlexNet、ResNet50、VGG16,以及可配置CNN,通过准确率、精确率、马修斯相关系数、F1分数、假阳性率评估四个CNN的性能。结果表明,可配置CNN需要的学习参数非常少,且精度更高,在现有研究使用的方法中表现最好。AlexNet、ResNet50、VGG16、可配置CNN的准确率分别为90.98%、91.91%、92.71%和93.01%。本文发表在IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS杂志。

1.介绍

情绪是由表达反应(expressive response)、生理反应、主观体验组成的一种生理状态。日常生活中,情绪对参与、解释、决策都很重要,人类行为、认知、交流受到情绪的影响,爱好、兴趣、健康等相关信息也可以通过情绪来解释。通过面部表情、语音准确识别情绪有助于人机界面的发展,然而面部、语音可能被刻意改变,导致分类错误。神经生理信号测量可以克服这一问题,EEG(脑电图)信号因采集简单、使用方便受到关注,其测量的大脑电活动也很难被刻意影响。迄今为止,研究人员已提出多种基于EEG的情绪分类方法:

简写: 支持向量机(SVM) ;功率谱密度(PSD) ;快速傅里叶变换(FFT) ;k近邻(kNN) ;多层感知器(MLP) ;短时傅里叶变换(STFT) ;线性判别分析(LDA); 卷积神经网络 (CNN) ;小波变换(WT) ;离散小波变换(DWT); 最小二乘支持向量机(MC-LS-SVM) ;经验模态分解(EMD) ;固有模态函数(IMF) ;基于相关的滤波(CIF) ;变分模态分解(VMD) ;可调Q小波变换(TQWT) ;极限学习机(ELM) ;柔性解析小波变换(FAWT)

相关文献使用的方法还有:

(1)数据处理/特征提取:相位、角度(angle)重建+庞加莱特征提取、共空间模式和基于PSD的特征提取、基于不对称空间模式和朴素贝叶斯分类的特征提取、基于希尔伯特-黄谱+锥状分布+频谱图的混合模型、二次时频分布、群稀疏典型相关分析等。

(2)分类器:混合深度信念网络、隐马尔可夫模型、自组织映射等。

滤波、FFT、小波方法基于经验选择滤波器、阶数、窗口和小波类型。窗口长度和类型的选择是STFT需要考虑的问题。基于EMD的方法是纯粹实验性的,缺乏数学建模。由于EEG是非平稳信号,准确选择TQWT、FAWT和VMD的分解参数也很困难。锥状分布(Zhao–Atlas–Marks distribution )、希尔伯特-黄变换、共空间模式容易出现噪声。此外,文献提出的大多数方法都手动提取特征和分类方法,这种传统的信号处理、特征提取、分类方式非常耗时。大量定性、定量参数分析极大地影响了系统性能,文献使用的方法也受到性能的限制。

基于上述问题,我们需要尽快开发信号的自动分解与分类方法。本文提出了基于平滑伪韦格纳分布(SPWVD)和卷积神经网络(CNN)的情绪识别方法。SPWVD用于将时域信号转换为时间、频率、幅度的表征,时频表征(TFR)图像输入CNN。我们使用三个预训练的CNN和一个可配置的CNN对图像进行分类,并评估了他们的性能参数。通过与现有技术进行比较,我们验证了提出方法的优越性。

2.方法

2.1.数据集

图片、音频、视频、音-视频可用于诱发情绪,音-视频效果最优。本文招募20名学生,平均年龄为23±0.5岁,没有任何身体或精神障碍。脑电数据集可在线获取,实验设置详细信息见参考文献。实验向被试展示10秒的印度电影音-视频片段,片段内容明白易晓、诱发单一情绪。使用国际10-20系统定位24通道采集EEG数据,采样频率256Hz。本文考察四种基本情绪:恐惧、快乐、放松、悲伤,情绪分类步骤如图1。

图1.情绪分类流程图

2.2.预处理

EEG信号包含被称为伪迹的非神经元动作产生的噪音,如眼电图(EOG),即来自人眼背、前侧之间的角膜视网膜站立电位,频率为50-60Hz。研究发现可用的情绪识别频率低于40Hz。我们选择主要频段,通过预处理去除伪迹。带通滤波使用十阶巴特沃斯滤波器,通带、阻带频率为4和45Hz。大脑前侧对于记录人类反应有重要意义,实验放置六个额叶电极:FP1、FP2、F3、F4、F7、F8,FP2–F8、FP1–F3、FP2–F4、FP1–F7组成4个通道。滤波后的恐惧、快乐、放松、悲伤相关EEG如图2所示,从图中未看出情绪间的明显区别。

图2.四类情绪滤波后EEG;每个信号包含2560个样本,每通道每类情绪有494个信号,每类情绪有1976个信号。

2.3.平滑伪韦格纳分布(SPWVD)

CNN需要输入图像,我们将时域信号转化为TFR(时频表征)来记录谱域信息,TFR是时间、频率、幅度的同时的空间表征。STFT、韦格纳分布、SPWVD、连续小波变换(CWT)等方法可将信号转换为TFR。STFT生成的TFR称为频谱图,STFT需要选择窗口、宽度、形状、采样频率,长度必须在整个信号中保持一致。由于时频局部性,STFT获得的频谱图分辨率较差。CWT生成的TFR称为尺度谱,CWT需要选择母小波及其参数,尺度谱的分辨率取决于小波的选择。韦格纳分布生成的TFR会在低频产生交叉项和衰减。为克服这些限制,本文使用SPWVD将EEG转换为TFR。与STFT和CWT相比,SPWVD提供了很好的时频分辨率。通过在频域中引入交叉项来减少窗口,SPWVD克服了韦格纳分布的局限。SPWVD直接表征信号能量的时频定位,时、频域用于减少窗口的交叉项的长度、类型可以独立选择。因此,SPWVD具有良好的时频集群特征。SPWVD可以用公式1表示,其中γ(t)和h(t)是频域、时域中减少窗口的交叉项,时、频域平滑尺度可以轻松控制,γ(t)和h(t)的窗口长度可以独立选择。SPWVD获得的滤波EEG信号的TFR如图3。从图中可以看出,悲伤、快乐、放松、恐惧具有明显区别,快乐和恐惧的能量幅度很高(在10000范围内),悲伤的能量幅度中等(在5000范围内),放松的能量幅度很低(在2500范围内)。对比图2和图3可见,变换后的信号相较于滤波后时域EEG信号更方便洞察信息。

图3.使用SPWVD(平滑伪韦格纳分布)生成的EEG信号的TFR(时频表征),(a)悲伤、(b)快乐、(c)放松、(d)恐惧。

2.4.卷积神经网络

卷积神经网络是机器学习新增的子领域,受人工神经网络的启发,CNN由自我优化的神经元组成,也称为深度学习网络,自动对信号进行分类。受小鼠视觉系统的启发,CNN旨在处理图像,考虑输入信息的空间和结构信息。

近期CNN是图像分类、物体检测、人脸识别等领域应用最广泛的技术之一。CNN由多层互连神经元组成,这些神经元经过严格训练,进行特征提取和分类。CNN取代了耗时的传统特征提取、分类算法,可以自动学习,提取特征并进行分类。由于迁移和自动学习的特性,CNN广泛应用于计算机视觉领域。CNN由一个输入层、多个隐藏层、一个输出层组成,隐藏层由卷积层(CL)、池化层(PL)、完全连接层(FC)组成。高级特征提取由CL和PL实现,分类由FC控制,每一层的功能解释如下:

(1)卷积层CL

CL是决定CNN运行的关键。CNN的性能取决于可学习过滤器的使用。核的空间维度通常很小,但会随图像深度扩展。二维信号的二维卷积可以写成公式2。过滤器通常按步幅(q)的像素数移动,有时也可以用z设置零填充保持空间维度。对于尺寸为Wm × Hm × Km的图像输入,Wm是宽度,Hm是高度,Km是通道数。使用大小为r × r的K0个滤波器,输出量W0 × H0 × K0可以写为公式3。卷积结合了激活函数,激活函数增强了网络的非线性,最常用的激活函数是修正线性单元(ReLu)。

(2)池化层PL

CL后接PL,也称为子采样层/下采样层。PL的主要目标是生成下采样特征映射,使用最大/均值函数对每个激活映射进行降维压缩,通过保留有用信息来减少参数和维度。PL还可以控制过拟合。对于输入映射J,输出映射通常更小,如公式4,其中αkl和βkl是乘法和加法偏差项,down(·)是池化函数,PL的输出为FC层的输入。

(3)完全连接层FC

PL后接FC。FC是一个前馈神经网络,将二维特征映射转换为一维特征映射,softmax层将评分转换为概率,最后分类层基于算法将一个类分配给一个对象。

通过CL、PL、FC可以构建CNN,添加/删除层的数量直到获得所需网络性能。随着CNN的发展,许多预训练的深度CNN被用于各种机器学习问题,如AlexNet、ResNet50、VGG16、VGG19、GoogleNet等著名的预训练迁移学习网络。这些网络将先前学习的一个领域的知识迁移到另一个领域,以进行特征提取和分类,如先前训练数据集那样,将数量较少的新图像用于训练。本文使用三个可作为基准(benchmark)的CNN,即AlexNet、ResNet50、VGG16进行情绪识别。目前没有标准的CNN方法用于EEG的分析和分类,CNN的选择取决于性能,许多现有CNN具有大量的层,复杂架构显著增加了可学习参数的数量。此外,对于复杂网络,训练、测试、验证所需的时间更长。CNN的性能高度依赖于超参数,改变滤波器大小、步幅、dropout等可以改变分类精度,参数少、复杂度小可以实现更高的准确度。综上考虑,本文设计了一个可配置的CNN,有更少的CL、PC和更小的FC,由四个CL、两个PL、一个dropout层和两个FC组成,该网络的架构可以根据应用需求进行修改,添加或删除CL、PL的数量。其所需的可学习参数的数量也更少。可配置CNN的架构如图4。

图4.可配置CNN的网络架构

3.结果

传统的分类问题涉及信号分解、特征提取、特征选择和分类,性能很大程度取决于分解、分类选择的参数。使用传统方法进行分类费时费力,因此本文提出了一种自动、可靠的情绪分类方法,基于音-视频片段诱发的四种情绪的EEG信号,带通滤波去除伪迹和噪音,使用SPWVD(平滑伪韦格纳分布)将滤波后的一维EEG转换为TFR,输入三个可作基准的预训练CNN和一个可配置CNN(四个CL、两个FC)。

带通滤波使用十阶巴特沃斯滤波器,通带频率4-45Hz,采样频率256Hz,滤波信号用于转换为TFR。使用SPWVD将一维信号转换为二维信号,Kaiser窗用于减少时、频域中的交叉项。窗口太小可能导致分辨率低,太大可能大幅增加图像大小,因此我们根据经验选择长度为31的中型窗口,为快速计算,窗口大小保持为2n-1。TFR输入AlexNet、ResNet50、VGG16和本文提出的可配置CNN。

70%的数据集用于训练网络,其余用于测试,权重和偏差学习率固定为20,使用Adam优化器缩放神经网络每个权重的学习率,batch大小和epoch数分别定为50和10,学习率为0.0001,验证频率为3,总共进行1100次迭代,每个epoch进行110次迭代。AlexNet是一个八层网络,有五个CL、三个FC,采用尺寸为227 × 227的输入图像,在第一个CL中执行具有局部响应归一化的卷积和最大池化,96个过滤器,每个尺寸为11 × 11,最大池化尺寸为3 × 3,步幅为2;第二层CL由256个过滤器组成,每个过滤器大小为5 × 5;第三、四层包含384个特征映射,每个过滤器大小3 × 3;第五层有296个过滤器,每个大小3 × 3;第六、七层是两个FC,后面是dropout层和softmax层。使用AlexNet获得的准确率为90.98%。图5显示了训练、验证的准确率和损失,达到最终迭代耗时837分55秒。

表1显示了AlexNet获得的混淆矩阵,恐惧的分类准确率为96.91%,快乐、放松、悲伤错分为恐惧的比率都非常低,分别为2.38%、0.35%和0.66%。快乐、放松、悲伤的分类准确率分别为88.77%、83.45%和95.09%。

ResNet50由50个CL、单个FC组成,滤波器大小为1×1、3×3和7×7,输入图像大小为224 × 224。通过SPWVD获得224 × 224大小的图像作为输入,ResNet50的准确率和损失如图6,准确率为91.91%,测试和验证所需总时长3325分50秒。ResNet50得到的混淆矩阵如表2,恐惧、快乐、放松、悲伤的分类准确率分别为95.70%、87.04%、90.99%和93.93%。VGG16输入图像大小224 × 224,由16个CL、3个FC组成,滤波器大小3 × 3。

VGG16的分类准确率为92.71%,训练和测试总时长2320分11秒。准确率和损失如图7,混淆矩阵如表3。恐惧的分类准确率为97.06%,快乐、放松的分类准确率分别为87.25%和93.17%,悲伤的分类准确率为93.37%,情绪错分率如表所示。可配置CNN由4个CL、2个PL、2个FC组成,dropout为50%,滤波器大小为3×3、5×5和7×7,输入图像大小227 × 227,使用Adam优化器进行权值学习,每次迭代的训练、验证准确率如图8,总时长2449分43秒,准确率93.01%。

可配置CNN的混淆矩阵如表4,恐惧、快乐、放松、悲伤的分类准确率分别为96.71%、86.08%、93.83%和95.45%,恐惧的错分率为0.76%、0.40%和0.30%(快乐、放松、悲伤),快乐的错分率为0.61%、0.61%和3.44%(恐惧、放松、悲伤)。

图5-8.四个CNN的分类准确率与损失

表1-4.四个CNN的混淆矩阵

表5显示了五个性能参数,即不同CNN获得的准确率、精确率、马修斯相关系数(MCC)、F1分数、假阳性率(FPR)。深度高时网络性能好吗?表6比较了不同网络的参数细节,分别为CL数、FC数、滤波器大小、总用时、参数数量、步幅、准确率。基于737452个可学习参数,可配置CNN的复杂性显著低于其他CNN,训练AlexNet、ResNet50、VGG16所需总时长分别约为838、3326和2320分钟,训练可配置CNN用时2450分钟,高于AlexNet、VGG16,低于ResNet50。可配置CNN的准确率高于其他三个可作基准的CNN。

表5-6.四个CNN的性能参数(准确率、精确率、马修斯相关系数、F1分数、假阳性率)及详细信息(CL数、FC数、滤波器大小、总用时、参数数量、步幅、准确率)

4.讨论

表7.本文所提方法与现有先进方法的性能比较

如表7,与其他先前文献使用的方法相比,本文提出的方法使用四种不同的CNN架构,SPWVD(平滑伪韦格纳分布)获得的TFR输入AlexNet、ResNet50、VGG16和可配置CNN。AlexNet准确率为90.98%,ResNet50为91.91%,VGG16为92.71%,可配置CNN为93.01%。从表7中可以明显看出,预训练的AlexNet、VGG16和ResNet50以及可配置CNN的性能优于其他先进技术。本文所提方法的优点和局限性如下:

优点:

(1)可靠、简单。

(2)方法可根据应用进行调整。

(3)其他转换技术和数据集相关范围内稳健。

局限性:

(1)信号处理和分类使用经验参数。

(2)测试、验证在单个数据集上进行。

5.结论

本文对多种CNN进行研究,使用EEG信号对四种情绪进行分类。与传统方法相比,CNN在特征自动提取和分类方面具有优势。本文介绍的方法使用滤波与SPWVD(平滑伪韦格纳分布)将时域EEG信号转换为图像TFR(时频表征),EEG为四种情绪(恐惧、快乐、放松、悲伤)所诱发。TFR输入四个CNN,分别为三个预训练网络(AlexNet、ResNet50、VGG16),一个具有4个CL、2个FC的可配置CNN。分类结果表明,AlexNet在训练和测试上速度最快,VGG16次之,ResNet50最慢。可配置CNN在可学习参数显著较少的情况下提供了最大精确度。结果证明了本文所提方法相对于现有方法的优越性,该方法可用于开发基于EEG的人机界面,未来研究可以通过窗口及其大小的最佳选择来将EEG转换为图像,探索超参数优化,提高系统性能。

  • 0
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值