SST-EmotionNet: 基于空-谱-时的注意力三维稠密网络脑电情感识别

传统脑电信号只在时域、频域进行相应的信号处理,本文利用时频空三维特征构建神经网络,提出一种特征更全、识别率更高的脑电信号分类算法,并在三个维度分别施加对应的注意力机制,具有很高的参考学习意义。

ABSTRACT

多媒体刺激脑活动不仅成为一个新兴的研究领域,而且在基于脑活动的脑电情感分类方面也取得了重要进展。然而,如何充分利用不同的脑电特征和特征之间的区分不同的情绪的局部模式是具有挑战性的。现有的模型忽略了空间-谱-时特征之间的互补性和各特征中具有区分性的局部模式,在一定程度上限制了模型的分类能力。在本文中,我们提出了一种新的空间-频谱-时间为基础的注意力三维密集网络,命名为SST-推理网络,脑电情感识别。SST-ProptionNet的主要优点是在统一的网络框架中同时集成空间-光谱-时间特征。同时,设计了一个三维注意机制,以自适应地探索有区别的局部模式。在两个真实世界数据集上进行的广泛实验表明,SST-EmotionNet的性能优于最先进的基线。

关键词:脑电;情绪识别;卷积神经网络;注意机制;情感计算

1 引言

情绪影响人的行为,在日常生活中起着重要的作用。一般来说,许多精神疾病都与情绪有关,如自闭症和抑郁症[1,5]。因此,情绪常被用作评估患者精神障碍的参考[34]。越来越多的研究人员致力于分析特定刺激模式诱发的不同情绪的脑电,并在人机交互(HCI)中开发情感人工智能[3]。研究主要集中在利用图像、声音、文本等多媒体材料设计实验范式,刺激大脑并暴露其认知活动以进行情绪分类[35]。

脑电信号可以客观地反映不同的情绪,成为识别真实的情绪的可靠途径[31]。图1呈现不同情绪脑电信号的空-谱-时特征的差异。例如,在时空维度上,积极情绪的激活程度一般较高,消极情绪则相反;在空间频谱维度上,当被试处于消极情绪中时,低频带(和)比高频带(和)激活程度更高,而积极情绪的激活程度正好相反。𝛽𝛿此外,重要的区分性局部模式的存在也是识别不同情绪的关键。例如,当受试者处于积极情绪状态时,颞叶区域(位于耳后并延伸到大脑两侧,如图1中的红框所示)的E1和E2带受上述现象的启发,研究人员采用深度学习模型来识别基于EEG特征的不同情绪。例如,卷积神经网络(CNN)[15,24]或图卷积网络(GCN)[25,29]用于捕获空间-频谱特征,长短期记忆(LSTM)[2,22]用于捕获时间特征。虽然现有的情感识别模型已经达到了很高的准确率,但大多数模型只考虑单个特征或两个特征(如空间和光谱特征)的组合。这些模型忽略了空间-光谱-时间特征之间的互补性,在一定程度上限制了模型的分类能力。此外,如何在时空特征中捕捉局部模式也是情感识别的一个挑战。

1:大脑激活在(a)空间-频谱维度和(b)空间-时间维度上的分布。不同的情绪状态在不同的频带、时间戳和大脑区域呈现不同程度的激活。此外,对于情绪状态存在有区别的局部模式,如红色框中所示的示例。结果表明,负性情绪时颞叶区的激活程度比负性情绪时高。

为了解决上述挑战,我们提出了一个基于时空的注意力3D密集网络,命名为SSEMotionNet。SST-DetectionNet由空间-频谱流和时空流组成。每个流由几个基于注意力的3D密集块(A3 DB)和过渡层组成。图2显示了整个实验过程。本文的主要贡献概括如下:

·提出了一种双流3D Dense网络,该网络基于构造的3D脑电信号表示,将脑电信号的空间-频谱-时间信息融合在一个统一的网络框架中。

·我们开发了一种并行的空间-频谱/时间注意机制,以自适应地捕获大脑区域、频带和时间戳中的区分模式。

·在两个基准数据集上进行了广泛的实验,实验结果表明,我们的SSEMotionNet始终优于所有最先进的模型。

2 相关工作

近年来,时间序列分析引起了许多研究者的关注[11-13]。由于脑电信号的生理时间序列能够准确、客观地反映被试者的真实的情绪,因此在情绪识别中得到了广泛的应用。在早期,人工提取的特征和传统的机器学习分类器用于情感识别。例如,Bahari等人采用基于递归图的非线性最近邻分类器(kNN)来识别不同的情绪[4]。Wang等人采用基于频率特征的支持向量机(SVM)分类器对不同的情绪进行分类[27]。然而,传统的机器学习技术受到特征设计和特征选择的限制,需要大量的专家知识。

为了克服上述限制,提出了深度学习技术,该技术允许由多个处理层组成的计算模型学习数据表示[14]。受深度学习在计算机视觉、语音识别和自然语言处理方面的成就的启发,一些研究人员也将深度学习应用于EEG情感识别。通常,研究者基于深度学习模型从脑电信号中提取频率特征、时间特征或空间特征用于情感识别。例如,常用的频率特征包括微分熵(DE)特征[6,32]、功率谱密度(PSD)特征[8,9]、微分不对称(DASM)特征[21]、有理不对称(RASM)特征[20]和微分尾度(DCAU)特征[31]。Al-Nafjan等人采用深度神经网络(DNN)来识别基于PSD特征的人类情感[3]。Zheng等人提出了一种使用DE特征识别情感的深度信念网络(DBN),并发现从EEG信号中提取的DE特征是一种准确且稳定的分类特征[32]。Yang等人提出了一种分层网络,使用来自五个频带的DE特征来识别不同的情绪[28]。对于时间特征提取,一些研究人员利用深度学习模型来自动获取基于原始EEG信号的动态信息。例如,Fourati等人提出了一种回声状态网络(ESN),它使用递归层将原始EEG信号投影到高维状态空间[7]。Alhagry等人使用2层LSTM,将EEG信号作为输入,以获得满意的结果[2]。Ma等人提出了一种多模态残差LSTM模型(MMResLSTM),其时间权重在多个模态之间共享[22]。对于空间特征提取,Li等人提出了一种基于2D EEG图的分层卷积神经网络在不同通道之间捕获空间信息[15]。为了捕捉不同脑区之间相互作用的信息,Jung等人将EEG信号转换为基于图像的表示,并获得了令人满意的结果[24]。Song等人提出了一种新的双半球差异模型(BiHDM),用于学习两个半球之间的不对称差异,以进行EEG情感识别[19]。Zhang等人设计了一个图卷积宽网络(GCB-net),用于探索图结构数据的深层信息[29]。

2EEG情绪识别的整个过程。被试者在多媒体材料刺激下的脑电信号被构造成三维表示输入到SST-神经网络。该模型由空间-频谱流和空间-时间流组成,二者具有相同的结构。它们都是由几个基于注意力的3D密集块(A3 DB)和过渡层组成的。最后,将空谱流和空时流进行融合分类。

虽然现有的情感识别方法已经达到了很高的准确率,但大多数方法只考虑单个特征或两个特征的组合。由于特征之间的互补性,我们提出了SST-predictionNet模型,该模型同时考虑了空间-光谱-时间特征。

3 准备工作

本文定义了XT =(S1T,S2T,...,STT)∈RE×T,作为包含时间戳的EEG信号样本,其中是电极的数量,StT=(st1,st2,st𝐸)∈RE(t∈{1,2 .T..,n}),StT表示在时间戳n处收集的所有n个电极的EEG信号。𝐸然后将S转换为2D时间映射MtT∈RH×W(见4.2节),其中H和W表示2D映射的高度和宽度。此外,3D空间-时间表示XT′=(MT1,MT2,...,MTT)∈RH×W×T.

我们定义XS=(S1S,S2S,...,SBS)∈RE×B作为从脑电信号中提取的包含多个频带的谱特征,,SbS =(sb1,sb2,...,sbE)∈RB(∈{1,2,…,𝐵})表示在频带内采集的所有EEG电极的EEG信号。同样地,S被变换为2D谱图MbS∈RH×W。此外,3D空间-频谱表示XS′=(MS1,MS2,...,MSB)∈RH×W×T的EEG信号的构造。选择{𝛿,𝜃,𝛼,𝛽,𝛾}作为频带集合,所以b∈{𝛿,𝜃,𝛼,𝛽,𝛾}。

EEG情感识别问题被定义为:基于所提出的模型学习映射函数,该映射函数将𝐹输入相应的情绪:

其中,F表示映射函数,𝑌𝑐𝑙𝑎𝑠𝑠𝑖 𝑓𝑖𝑐𝑎𝑡𝑖𝑜n表示情感分类。

3:基于空间-频谱-时间的注意力3D密集网络的整体结构。A3DBAttention based 3D Dense Block; 3DCM3D Densely Connected Module

4 方法论

4.1模型概述

图3展示了基于空间-频谱-时间的注意力3D密集网络(SST-注意力网络)的整体结构。它由空间-频谱流和时空流组成,它们相互独立,但具有相同的网络结构。两个流的输入分别是脑电信号的三维空间-频谱表示和三维时空表示。每个流由几个基于注意力的3D密集块(A3DB)和过渡层组成。A3DB由空间-频谱/时间注意力(SST-Attention)模块和3D密集连接模块(3DCM)组成。最后,空间-频谱-时间特征被融合为两个流进行分类。

我们总结了SST-ApprotionNet的四个核心思想:1)在构建的三维表示的基础上,在一个统一的网络框架中存储EEG信号的空间-谱-时信息。2)提出了一种并行的空间-频谱/时间注意机制,自适应地获取一些有价值的大脑区域和频率信息或时间信息,用于情感识别。3)设计3D密集连接模块和过渡层,以帮助特征重用,增强特征传播,并具有更好的参数效率。4)采用伪3D模块,提高了3D卷积的计算和存储效率。

4.2 3D表示

在实验中,我们设计了脑电信号的三维时空表示和三维空间谱表示作为所提出的SST-推理网络的输入。这些表示被用来描述EEG信号的时间和频谱信息的空间分布。生成3D表示的过程如图4所示。

为了构建3D空间-频谱表示,从EEG信号样本中在5个频带(𝛿[1-5Hz],𝜃[4-7Hz],𝛼[8-13Hz],𝛽[14-30Hz],𝛾 [31-50 Hz])中提取所有EEG通道的DE特征。为了联合收割机的空间信息,从不同的EEG通道提取DE特征被转换成二维地图根据电极的位置。具体地,特征SbS= (sb1,sb2,...,s 𝑏E)∈ RE被转换为2D图MbS∈ RH ×W,其中b∈{1,2 ....B}表示特定频带。通过变换函数T将第𝑏频带处的1D矢量S bS变换为2D映射M bS。因此,对于每个样本,获得从不同频带变换的频谱图。

对于3D时空表示,类似于3D空间谱表示,EEG信号StT=(st1,st2,st𝐸)∈RE被变换为2D在第t个时间戳处,将来自所有EEG通道的EEG转换为2D图,映射MtT∈RH×W。因此,获得了双时态映射。

为了使特征图的细节奇异化,我们需要提高它们的分辨率。因此,在这些2D地图上采用三次样条插值。最后,从每个样本中形成时间序列图和光谱序列图。在将这些2D时域图和二维谱图,分别得到了脑电信号的三维时空表示和三维空谱表示。

43Dmap表示的过程。(a)选择同一波段的DE特征,并在同一时间戳绘制信号。(b)根据电极在大脑上的位置,将选定的数据转换为2D图。电极名称在2D标测图中注释。(c)对二维地图采用三次样条插值。(d)将来自不同波段或时间戳的二维地图进行叠加,形成三维空间-频谱表示和三维空间-时间表示。

4.3空间-频谱/时间注意

情绪的差异表现在不同频段、时间戳和大脑区域的激活程度上。在特定的频带、时间戳或大脑区域中,每种情绪状态都有一些稳定的、有区别的模式[16]。因此,重要的是要适应性地集中在这些特定的模式的情感识别。我们设计了一个并行的SpatialSpectral/Temporal Attention(SST-Attention)模块来自适应地捕获一些注意的大脑区域、频带和时间戳。SST-注意力由两个子模块组成:空间注意力模块和频谱/时间注意力模块。

由于Spatial-Spectral Attention和SpatialTemporal Attention在不同流中的结构相似,因此我们以SpatialSpectral Attention为例,其结构如图5所示。首先,采用通道全局平均池化(cGAP)来降低计算成本,其被定义为:

其中,Mavg∈R H×W×B是通过将该模块X ∈ RH×W×B×C的输入通过通道维度C进行收缩而形成的; FcGAP表示cGAP函数; Xh,w,b表示包含X的h,w,b处的跨通道数据的向量。

5:空间-频谱流中的空间-频谱注意力由空间注意力和频谱注意力组成。图中的上半部分是层的类型,下半部分是其输出张量的维度。

4.3.1空间注意力对于不同的情绪状态,大脑不同区域的激活是不同的。因此,我们采用空间注意来识别有价值的大脑区域,以提高情感识别的准确性。为了初始构建空间注意力,采用逐频带全局平均池化(bGAP)来缩小频带维度,其被定义为:

在下文中,空间注意力矩阵通过具有softmax激活函数的全连接层来实现,其被定义为:

4.3.2光谱/时间注意力。不同频段对于识别情绪的重要性是不同的。此外,受试者可能在特定时间内表达更明显的情绪。为了自适应地识别增强情感识别分类效果的频带或时间戳,设计了频谱/时间注意。以光谱注意力为例,池化(sGAP)被用来收缩空间维度,其被定义为:

随后,频谱注意力矩阵通过具有softmax激活函数的全连接层实现,其定义为:

其中W′和B′是可学习的参数; Aspe∈ R1×1×R是归一化的光谱注意力矩阵。

在生成空间注意力矩阵:Aspa∈R H×W ×1和光谱注意力矩阵:A spe∈ R 1 ×1×B之后,空间-光谱注意力过程可以定义如下:

4.4 3D密集连接模块

为了加强特征传播并具有更好的参数效率,我们设计了一个3D密集连接模块(3DCM),2D DenseNet [10]。每个3DCM由几个密集连接的伪3D卷积组成。空间频谱流中的3DCM的结构如图6所示。

密集连接。在3DCM中采用密集连接。对于此模块中的第l层,它接收所有先前层的特征图作为输入:

其中[X 0,X1,...,Xl-1]指的是X 0,X1,...,Xl-1;Hl表示每层中的伪3D卷积。

伪3D传统的3D卷积滤波器的大小是k×k×d,其中k×k表示滤波器的空间大小,d表示滤波器的时间/频谱大小。为了避免3D卷积的昂贵的计算成本和内存需求,Qiu等人[23]将传统的3D卷积滤波器(k×k×d)解耦为空间域上相当于2D CNN的k×k×1卷积滤波器和频率/时间域定制的1D CNN等1×1×d卷积滤波器。为了加快计算速度,我们在3DCM中采用伪3D代替传统的3D CNN。因此,先前的Hl最小值被定义为:

其中,X表示伪3D模块的输入;fk×kx1表示捕获空间特征的2D卷积滤波器; 𝑓1×1×d表示捕获EEG信号的频谱或时间特征的1D卷积滤波器。

4.5过渡层

为了提高模型的紧凑性,我们采用了过渡层,这是DenseNet的重要组成部分[10]。过渡层通过减少特征数量来提高模型紧凑性,它由一个批量归一化层和一个1 × 1卷积层以及一个2 × 2平均池化层组成。引入1 × 1卷积层以减少特征图的数量,平均池化层用于对特征图进行下采样。如果一个密集的块包含一个特征映射,下面的过渡层将生成𝜃𝑚一个密集的特征映射输出,其中0 <0≤ 1被称为压缩因子[10]。

4.6融合和分类层

SST- EmotionNet从空间谱流中提取空间谱特征,从时空流中提取时空特征。在SST- EmotionNet的顶部,空间光谱流和时空流的输出通过融合层进行融合,以实现高精度分类。融合层由连接层和具有softmax激活的全连接层组成。本文采用分类交叉熵作为损失函数,定义如下:

其中,如果类标签c是观测值的正确分类,则M表示类的数量,如果类标签o是观测值的正确分类,则𝑦o,c表示二进制指示符(0或1),并且po,c表示类的预测概率观测值。

6:空间频谱流中的3DCM由几个密集连接的伪3D卷积组成。伪3D卷积由1×1 ×1卷积滤波器和1×1×1卷积滤波器(n= 3)组成。前一个卷积滤波器用于捕获空间特征,后一个卷积滤波器用于捕获光谱特征。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值