【无标题】

1 intro

情感计算是人工智能的一个分支。计算与情感有关、产生于情感或影响情感[1]。情感自动识别是情感计算的一个研究领域。这一领域的研究正在迅速发展,这要归功于可负担得起的捕捉大脑信号的设备的可用性,这些设备可以作为解码情绪和脑电图(EEG)变化之间关系的系统的输入。这些设备被称为基于脑电的脑机接口(BCIs)。

这项工作回顾了使用脑电信号和脑机接口进行情绪识别的进展,以(1)识别算法使用和技术的趋势,(2)检测必须克服的潜在错误以获得更好的结果,以及(3)识别该领域可能存在的知识差距。其目的是区分系统实现中已经完成的工作,并了解未来可能发生的情况。就背景而言,我们的研究是2015年至2020年的一项调查。

本文概述了数据集、情绪激发方法、特征提取和选择、分类算法,以及该领域中使用的计算机智能技术。我们简要回顾了基于EEG的情绪识别系统的组成部分,并强调了文献中显示其使用统计数据的趋势。我们提供了一份论文汇编,描述了新的实现,分析了它们的输入、工具和考虑过的类。这些最新信息可用于发现和建议新的研究途径。

本次调查遵循了[4]的指导方针。我们使用Semanticscholar.org来搜索来源,因为它链接到包含期刊和会议记录的主要数据库。搜索标准是与我们的审查目标相关的关键词。

本文件组织如下:第1节介绍了该主题,概述了脑机接口设备、情绪表征以及大脑位置、频带和情感状态之间的相关性。第2节展示了用于情绪识别的基于脑电的脑机接口系统的结构。修改了它们的主要组成部分:(1)信号采集,(2)预处理,(3)特征提取,(4)特征选择,(5)分类,以及(6)性能评估。第3节分析了我们选择的研究文章的组成部分,并讨论了趋势和挑战。第4节介绍了未来的工作。第5节介绍了本次调查的结论。

1.1. EEG-Based BCI in Emotion Recognition

许多研究表明,情绪状态与中枢神经系统中产生的电活动有关。大脑活动可以通过其电信号进行检测,通过使用EEG设备感知其变化、位置和功能交互[5]。EEG信号具有极好的时间分辨率,是神经元活动的直接测量。这些信号不能被操纵或模拟来伪造情绪状态,因此它们提供了可靠的信息。挑战在于解码这些信息并将其映射到特定的情绪中。

检测脑电信号的一种负担得起且方便的方法是通过基于脑电的脑机接口设备,这些设备是非侵入性的、低成本的,甚至是可穿戴的,如头盔和头带。这些工具的发展促进了情感识别领域大量研究的出现。

一些科学家预测,基于脑电的脑机接口设备将很快提高其可用性。因此,很快,它们就可以用于日常情绪检测,具有多种用途,如医疗保健设施中的情绪监测、游戏和娱乐、教学场景,以及优化工作场所的表现[6]等。

1.2. Emotion Representations

情绪可以用不同的通用模型来表示[7]。最常用的是离散模型和维度模型。离散模型识别了基本的、天生的和普遍的情绪,所有其他情绪都可以从中导出。一些作者指出,这些主要情绪是快乐、悲伤、愤怒、惊讶、厌恶和恐惧[8]。一些研究人员认为,该模型在更广泛的情感状态中代表特定情绪方面存在局限性。

或者,维度模型可以在二维连续空间中表达复杂的情绪:价-唤醒(VA),或在三维中表达:价、唤醒和支配(VAD)[9]。

VA模型以效价和唤醒为轴。Valence用于对积极和消极情绪进行评分,范围从快乐到不快乐(或悲伤)。唤醒测量从平静到刺激(或兴奋)的情绪。三维模型增加了一个支配轴来评估从顺从(无能为力)到被赋予权力的情绪。这种表示区分了在VA模型中共同表示的情绪。例如,恐惧和愤怒在VA平面上具有相似的价唤醒表征。

因此,三维模型通过支配维度来提高“情绪分辨率”。

在这个例子中,恐惧是一种顺从的感觉,但愤怒需要力量[10]。因此,支配维度改善了这两种情绪之间的差异。

图1显示了一个VA平面,其中表示了基本情绪。横轴对应于从积极情绪到消极情绪的效价维度。同样,纵轴对应于唤醒。这两个变量可以被认为是情绪状态的组成部分[5]。

图2展示了VAD空间,其中表示了相同的基本情绪。

表1显示,一些研究大脑中基于EEG的功能连接的研究人员已经报告了特定大脑区域和情绪状态之间的关系。考虑到单电极水平分析的研究表明,α带额叶部位的不对称活动与情绪有关。Ekman和Davidson发现,享受会激活大脑的左额叶[13]。另一项研究发现,当志愿者采用恐惧表情时,左额活动减少[14]。额中线θ带功率的增加与愉快的情绪有关,而不愉快的情绪则相反[15]。

//
越来越多的共识似乎是,情绪和特定大脑结构之间的简单映射与不同情绪激活同一结构或一种情绪激活几个结构的观察结果不一致[20]。此外,大脑区域之间的功能连接或信号复杂性测量可能有助于检测和描述情绪状态[21]。

2 EEG-Based BCI Systems for Emotion Recognition

图3展示了用于情绪识别的基于脑电的脑机接口系统的结构。信号采集、预处理、特征提取、特征选择、分类和性能评估的过程可以区分,并将在以下小节中进行回顾。

在这里插入图片描述

2.1. Signal Acquisition

沿着头皮定位非侵入性电极的廉价可穿戴EEG头盔和耳机可以有效地获取EEG信号。EEG的临床定义是大脑活动随时间变化的电信号记录。因此,电极捕获信号,放大信号,并将其发送到计算机(或移动设备)进行存储和处理。目前,市场上有各种低成本的基于脑电的脑机接口设备[22]。然而,目前许多基于脑电的脑机接口模型在继续使用后变得不适应。因此,仍然有必要提高它们的可用性。

2.1.1. Public Databases

或者,也存在具有用于情感信息的EEG数据的公共数据库。表2列出了与情绪识别相关的可用数据集列表。这样的数据集便于研究,一些情绪识别研究也使用了它们。
在这里插入图片描述

2.1.2.情感激发

国际情感图片系统(IAPS)[31]和国际情感数字化声音系统(IADS)[32]是最受欢迎的情感激发资源。这些数据集以标准化的方式提供情感刺激。因此,它对实验研究是有用的。

IAPS由1200张图片组成,分为20组60张照片。每一张照片都标注了价值和唤醒值。IADS的最新版本提供了167种日常生活中熟悉的数字录制的自然声音,这些声音被标记为配价、唤醒和支配。参与者使用自我评估模型系统标记数据集[12]。IAPS和IADS刺激可以通过标记信息访问,这有利于构建情绪评估的基本事实[33]。

其他研究人员使用了电影片段,这些片段也被证明能够激发情感。在[34]中,作者指出,使用视觉或听觉刺激的情绪是相似的。然而,通过多媒体的情感标签获得的结果可能无法推广到更具互动性的情况或日常环境中。因此,使用交互式情绪刺激来确保脑机接口结果的可推广性的新研究将受到欢迎。

许多实验在不同的环境中刺激情绪,但它们没有使用脑电图设备。然而,他们收集了其他生理指标,如心率、皮肤电流变化和呼吸频率等。从概念上讲,如果这些范式被复制用于EEG信号采集,那么它们可能是有用的。可能的实验包括面试时的压力,以检测愤怒、焦虑、拒绝和抑郁。接触气味会引发情绪,如愤怒、厌恶、恐惧、快乐、悲伤和惊讶。骚扰激起恐惧。短路的威胁,或者突然向后倾斜的椅子会引发恐惧。一丝震惊引起焦虑。当然,这些基于脑电的脑机接口实验应该考虑伦理因素。

据我们所知,只有少数研究使用了更多的互动条件,参与者在其中玩游戏或使用飞行模拟器来诱导情绪[35,36]。或者,一些作者通过记忆回忆成功地使用了自动诱发的情绪[37]。

2.1.3.规范化

EEG信号的振幅变化很大,这取决于年龄、性别和其他因素,如受试者白天警觉性的变化。因此,有必要对测量值进行归一化,以应对这种可变性。

正常化有三种可能的方法。第一种是记录受试者在没有刺激的情况下的参考条件。可以通过减去参考值,然后除以参考值(或减去参考值),然后除以相同的值来归一化所获得的值。第二种方法也需要参考条件。这些值包含在特征向量中,其特征将是构成“基线矩阵”的特征的两倍。

第三种方法通过获得一个特定的范围,例如−1和1之间,分别对数据进行归一化。该方法独立应用于每个特征,确保所有特征具有相同的值范围[38,39]。

规范化的效果及其对情绪识别整个过程的影响尚不明显。然而,一些研究表明,规范化允许对特征进行泛化,以便将其用于跨主题情感识别。从切向上讲,数据归一化由于更快的收敛而有助于机器学习算法的效率。

2.2. Preprocessing

脑电信号的预处理涉及信号的净化和增强。EEG信号很弱,很容易被来自内部和外部源的噪声污染。因此,这些过程对于避免可能影响后验分类的噪声污染至关重要。身体本身可能通过眨眼、眼睛或肌肉运动,甚至与脑电图信号混合的心跳产生电脉冲。应该仔细考虑是否应该去除这些伪影,因为它们可能具有相关的情绪状态信息,并且可以提高情绪识别算法的性能。如果使用滤波器,有必要谨慎使用,以避免信号失真。

脑电图中常用的三种滤波器类型是(1)低频滤波器,(2)高频滤波器(电气工程师通常称为低通和高通滤波器),以及(3)陷波滤波器。

前两个滤波器用于过滤1到50–60 Hz之间的频率。

对于EEG信号处理,滤波器,如Butterworth、Chebyshev或逆Chebyshev[39]是优选的。它们中的每一个都有需要分析的特定特征。巴特沃斯滤波器在通带和阻带中具有平坦的响应,但也具有宽的过渡区。切比雪夫滤波器在通带上有波纹,并且过渡更陡,因此它在阻带上是单调的。

逆切维舍夫在通带中具有平坦的响应,在跃迁中是窄的,并且在阻带中具有波纹。应该使用巴特沃斯相位零滤波器来防止相移,因为该滤波器在信号上前后移动以避免该问题。

另一个预处理目标是清除可能与外部源产生的低频信号相对应的噪声,例如电力线干扰[40]。陷波滤波器用于阻止特定频率而不是频率范围的通过。该滤波器旨在消除由电网产生的频率,其范围通常为50至60Hz,具体取决于特定国家的电信号频率。

所有这些滤波器都适用于EEG信号中的伪影消除。但是,如前所述,使用过滤器时必须小心。通常,滤波器会使EEG信号的波形和结构在时域中失真。因此,滤波应保持在最小值,以避免EEG信号信息的丢失。

然而,预处理有助于分离不同的信号和源。表3显示了用于预处理EEG信号的方法[41]以及2015年至2020年使用的文献中提到的方法的百分比。独立分量分析(ICA)和主分量分析(PCA)是在使用多通道记录时应用盲源分析将源信号与噪声隔离的工具,因此它们可以用于伪影去除和降噪。共同平均参考(CAR)适用于降噪。SL被应用于空间滤波以提高信号的空间分辨率。公共空间模式(CSP)算法找到了可以用来区分与肌肉运动相对应的信号的空间滤波器。

因此,每一种使用最广泛的预处理算法都有其优点。在表3中,我们可以从使用百分比栏中观察到,用于预处理的最常用算法是PCA(50.1%)、ICA(26.8%)和CSP(17.7%)。

2.3. Feature Extraction

一旦信号无噪声,脑机接口就需要提取基本特征,这些特征将被提供给分类器。可以在(1)时间、(2)频率、(3)时间-频率或(4)空间的域中计算特征,如表4[31,38,39]所示。下表介绍了用于特征提取的最流行的技术、它们的领域、优点和局限性。

时域特征包括事件相关电位(ERP)、Hjorth特征和高阶交叉(HOC)[58-60]、独立分量分析(ICA)、主分量分析(PCA)和Higuchi的分形维数(FD),作为该领域信号复杂性和自相似性的度量。还有统计度量,如幂、均值、标准差、方差、偏度、峰度、相对带能和熵。后者评估信号的随机性[61]。

在频域方法中,最流行的是快速傅立叶变换(FFT)。

自回归(AR)建模是计算信号频谱的基于傅立叶的方法的替代方法[62,63]。

时间-频率域利用时间和频率的变化,这些变化非常能描述神经活动。为此,使用了小波变换(WT)和小波包分解(WPD)[62]

在更广泛的方法中也考虑了EEG信号特征描述中提供的空间信息。对于该维度,信号参考数字链接耳朵(DLE)值,该值根据左耳垂和右耳垂计算如下:

图4显示了时域、频域和空间信息中的EEG信号。

在这里插入图片描述
根据[97],情绪是随着各种子系统的同步而出现的。几位作者在大脑的不同部位使用了同步的活动指数。[98]中已经证明了这些指标的有效性,计算了一组EEG信号的相关维数。在[98]中,使用了其他方法来计算大脑不同区域的同步。同步索引是一种很有前途的情绪识别方法,值得进一步研究。

表4显示了文献中最常用的算法及其各自的提及百分比:(1)WT(26%)、(2)PCA(19.7%)、(3)Hjorth(17%)、(4)ICA(11.3%)和(5)统计指标(8.6%)。

2.4. Feature Selection

特征选择过程至关重要,因为它获得了最能描述待分类EEG特征的信号特性。在脑机接口系统中,特征向量通常具有高维[99]。特征选择减少了分类器的输入变量数量(不要与降维混淆)。虽然这两个过程都减少了数据的属性,但降维结合了特征来减少它们的数量。

特征选择方法不会改变特征,而是根据特定的有用性标准排除一些特征。特征选择方法旨在通过处理最少的数据量来获得最佳结果。它用于删除对分类没有贡献的属性,因为它们与更简单的分类模型(更快、性能更好)无关(或冗余)。此外,在常规数据集、灵活的模型中,或者当数据集具有太多特征但没有足够的观测值时,特征选择方法降低了过拟合的可能性。

一种基于变量数量的特征选择方法将其分为两类:(1)单变量和(2)多变量。单变量方法逐一考虑输入特征。多变量方法将整组特征放在一起考虑。

另一种分类将特征选择方法区分为过滤、包装和内置算法。
•过滤方法使用数据的内在属性来评估特征。此外,大多数过滤方法都是单变量的,因此每个特征都是自我评估的。这些方法适用于大型数据集,因为它们的计算成本较低。

•当根据新特征对已选择特征的影响选择新特征时,包装方法取决于分类器类型。仅选择可提高精度的特征。

•内置方法在分类器算法中内部运行,如深度学习。这种类型的过程比包装方法需要更少的计算。

遗传算法被频繁使用(32.3%),其次是SDA(17.7%)、包装方法(15.6%)和mRMR(11.5%)。

2.5. Classification Algorithms

模型框架可以对分类算法进行分类[56,57]。该模型的类别可能是(1)生成判别的,(2)静态动态的,(3)稳定不稳定的,以及(4)正则化的[102-104]。

在情绪识别的某些条件下,有两种不同的分类器选择方法[56]。第一个是为给定的脑机接口设备识别最佳分类器。

第二个指定了给定特征集的最佳分类器。

对于同步脑机接口,动态分类器和集成组合显示出比SVM更好的性能。对于异步脑机接口,该领域的作者尚未确定最佳分类器。然而,动态分类器似乎比静态分类器表现得更好[56],因为它们能更好地识别心理过程的开始。

从第二种方法来看,已经发现判别分类器比生成分类器表现得更好,主要是在存在噪声或异常值的情况下。像SVM这样的动态分类器通常能更好地处理特征中的高维。如果有一个小的训练集,像LDA分类器这样的简单技术可能会产生令人满意的结果[58]。

静态-动态分类考虑了训练方法的时间变化。静态模型对数据进行一次训练,然后使用训练后的模型对单个特征向量进行分类。在动态模型中,系统是不断更新的。因此,动态模型可以获得特征向量序列并捕捉时间动态。多层感知器(MLP)可以被认为是一种静态分类器。同样,动态分类器的一个例子是隐马尔可夫方法(HMM),因为它可以对特征向量序列进行分类。

2.6. Performance Evaluation

结果的报告必须一致,以便不同的研究小组能够理解和比较。因此,需要选择和准确描述评价程序[119]。对分类器执行情况的评估包括解决性能测量、误差估计和统计学意义测试[120]。性能测量和误差估计配置了分类器功能的实现率。最值得推荐的性能评估措施显示在表7中。它们是混淆矩阵、准确度、误差等级以及从混淆矩阵中获得的其他措施,如召回率、特异性、精确性、曲线下面积(AUC)和F值。其他性能评价系数有Cohen’s kappa(k)[121],信息传输率(ITR)[65],以及书面符号率(WSR)[121]。

性能评价和误差估计可能需要辅以重要性评价。这是因为,如果样本量太小,或者类别不平衡(标记的EEG信号通常是这样的),高准确度可能影响不大。因此,显著性分类是必不可少的。有一些一般的方法可以处理任意的类分布,以验证明显位于某些水平之上的准确度值。使用的方法是随机分类的理论水平和调整后的分类准确性的Wald置信区间。

随机分类的理论水平测试分类结果的随机性是实验结果的分类概率与所有分类随机发生时计算的概率之间的乘积之和(p0=随机分类器的分类准确率)。

这种方法只能在进行分类后使用[122]。

调整后的Wald置信区间给出了正确分类的概率的下限和上限,它规定了分类器性能评价指标的区间[123]。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值