基于深度学习的脑电图分析

脑电图(EEG)是一种复杂的信号,可能先进的信号处理和特征提取方法才能正确解释。最近,深度学习(DL)由于其从原始数据中学习良好特征表示的能力,在帮助理解脑电图信号方面显示了巨大的潜力。然而,DL是否真的比传统的脑电图处理方法更有优势?仍然是一个悬而未决的问题。在本文中,我们回顾了2010年1月至2018年7月发表的154篇将DL应用于脑电图的论文,这些论文涉及:癫痫、睡眠、脑机接口、认知和情感监测等不同的应用领域。我们从这一庞大的文献中提取趋势和突出有趣的方法,以便为未来的研究提供信息并制定建议。我们的分析显示,各个研究中使用的脑电图数据的数量从不到10分钟到数千小时不等,而网络在训练过程中看到的样本数量从几十个到几百万个不等,这取决于如何提取分段。大约40%的研究使用卷积神经网络(CNN),而13%使用递归神经网络(RNN),通常总共有3-10层。此外,几乎一半的研究用原始或预处理的脑电图时间序列训练他们的模型。最后,在所有相关研究中,DL方法比传统方法的准确性中值提高5.4%。然而,更重要的是,我们注意到,研究的再现性通常很差:由于数据和代码不可用,大多数论文很难或不可能再现。为了帮助行业进步和更有效地分享工作,我们为未来的研究提供了一份建议清单,并强调需要更多可重复的研究。本文发表在Journal of Neural Engineering杂志。

1.介绍

1.1用脑电图测量大脑活动

脑电图(EEG)是一种测量活跃大脑产生的电场的脑成像技术,广泛应用于临床。具体来说,当大脑皮层锥体神经元产生的微小兴奋性突触后电位叠加在一起时,脑电图采集到到达头皮的电势差。因此,测量到的电位反映了神经元的活动,可以用来研究广泛的大脑过程。EEG具有极好的时间分辨率。然而,EEG存在空间分辨率低的问题。 脑电图有许多应用。例如,在临床环境中,脑电图常用于研究睡眠模式或癫痫。EEG也被广泛应用于神经科学和心理学研究,因为它是研究大脑及其功能的一个极好的工具。最后,脑电在脑机接口方面得到了广泛的应用。

1.2脑电图处理的当前挑战

虽然脑电图已被证明在许多领域是一个重要的工具,但它仍然受到一些限制,阻碍其有效的分析或处理。首先,脑电图具有较低的信噪比(SNR),因为所测量的大脑活动往往隐藏在多个类似或更大振幅的环境、生理和特定活动噪声源之下,这些噪声称为“伪影”。因此,必须使用各种滤波和降噪技术来最大限度地减少这些噪声源的影响,并从记录的信号中提取真实的大脑活动。

高学科间可变性也限制了脑电图应用的有效性。这种现象的出现是由于个体之间的生理差异,这种差异在量级上有所不同,但会严重影响模型的表现。为了解决上述的一些问题,通常使用带有特定于领域的方法的处理方法。在脑电数据清理、特征提取、分类等处理流程的开发方面进行了大量的研究。

此外,各种各样的任务将受益于更高级别的自动化处理。例如,睡眠评分,通过将几秒钟的窗口划分为睡眠阶段来注释睡眠记录的过程,目前需要大量的时间,由训练有素的技术人员手工完成。更复杂的自动脑电图处理可以使这个过程更快更灵活。同样,癫痫发作的实时检测或预测对癫痫患者非常有益,但也需要自动的脑电图处理。

1.3利用深度学习改进脑电处理

为了克服上述挑战,需要新的方法来改进脑电信号的处理,使其具有更好的泛化能力和更灵活的应用。在这种情况下,深度学习(DL)通过允许预处理、特征提取和分类模块的端到端自动学习,可以显著简化处理流程,同时也在目标任务上达到竞争性能。DL是机器学习的一个分支,深度学习是使用一定的计算方法学习样本的内在规律或者特点,通过向网络展示大量有标记的示例来训练网络,通过检测误差并调整神经元之间连接的权重以改进结果。图1概述了如何格式化脑电图数据(以及类似的多变量时间序列)并将其输入DL模型,以及一些重要的术语。通常,当有c个通道可用且窗口长度为l的样本时,用于脑电图处理的神经网络的输入由包含对应于所有通道窗口的样本的数组组成。

图1基于深度学习的脑电信号处理过程及相关术语。

(a)从多通道脑电图记录中提取重叠窗口(在某些情况下可能对应于试次或分段)。

(b)一般神经网络结构的说明。

不同类型的层被用作神经网络的构建。最常见的是全连接层(FC)、卷积层或循环层。我们将使用这些层类型的模型称为FC网络、卷积神经网络(CNN)和递归神经网络(RNN)。FC层由完全连接的神经元组成,即:每个神经元接收到的输入是前一层每个神经元的激活。卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连,区域的大小取决于卷积核的大小。此外,可以引入池化层,它实际上是一种形式的降采样,通常来说,CNN的卷积层之间都会周期性地插入池化层,这样模型学习到的表示对于输入的微小转换是不变的。与卷积层相反,循环层不仅考虑前一时刻的输入,而且赋予了网络对前面的内容的一种'记忆'功能,一个序列当前的输出与前面的输出也有关。

此外,在纯监督任务之外,可以构建其他架构和学习策略来在没有可用标签的情况下训练模型。例如,自动编码器(AEs)通过在给定一些约束条件(如稀疏性或人工噪声的引入)的情况下试图重现输入数据,从而学习输入数据的表示。生成对抗网络是由反对生成器(G)训练,试图从感兴趣的未知分布生成伪造的例子,到一个鉴别器(D),试图识别它接收到的输入是人为产生的,还是兴趣的未知分布中的一个例子。

总之,DL在多种方面对现有的脑电信号处理方法进行了改进和扩展。首先,DNN(深度神经网络)的层次性意味着特征可以从原始或最少预处理的数据上学习,减少了对特定领域处理和特征提取的需要。通过DNN学习到的特征也可能比人类设计的特征更有效或更具表现力。其次,在多个领域,DL已经超越了之前的最先进技术,它有潜力在不同的分析任务中产生更高水平的性能。第三,DL有助于开发不常在脑电数据上尝试的任务,如生成建模和域适应。

另一方面,有各种各样的原因,为什么DL可能不是最佳的脑电图处理,这可能证明一些脑电图学界的怀疑。首先,脑电图研究中典型的数据集所包含的例子远远少于目前在诸如计算机视觉(CV)和自然语言处理(NLP)等以DL为主的领域所需要的数量。数据收集相对昂贵,而且数据的可访问性经常受到隐私问题的阻碍——特别是对于临床数据而言,公开可获得的类似规模的数据集并不常见。其次,EEG的低信噪比等特点使其不同于DL最为成功的其他类型的数据(如图像、文本和语音)。因此,目前DL中使用的架构和实践可能不适用于脑电信号的处理。

1.4本文中使用的术语

在机器学习、深度学习、统计学、脑电图和信号处理等领域,有时会用到一些具有不同含义的术语。例如,在机器学习中,“样本”通常指模型接收到的一个输入样本,而在统计学中,它可以用来指从总体中选取的一组样本。它也可用于信号处理和脑电图中单个时间点的测量。类似地,在深度学习中,术语“epoch”指的是在训练期间对整个训练集进行一次在脑电图中,epoch是围绕特定标记提取的连续脑电图时间点的分组。

1.5本文的安排全文组织如下:

第一部分简要介绍了EEG和DL的关键概念,并详细说明了全文的目的;

第2节描述了如何进行综述,以及如何选择、评估和分析研究;

第3节重点介绍所选研究的最重要特征,并说明趋势和有前途的方法;

第4节讨论了DL-EEG的关键问题和挑战,并对未来的研究提出了建议; 第五部分总结了DL-EEG的未来研究方向。

2.方法

2010年1月至2018年7月期间发表的英文期刊和会议论文以及电子预印本被选为本次综述的对象。使用深度学习相关词条进行检索,为了评估被选中的论文的资格,首先阅读标题。如果标题没有明确说明是否符合纳入和排除标准,也阅读摘要。最后,在数据收集过程中阅读全文时,发现与标准不符的论文被拒稿。

根据以往范围相似的综述和作者对该领域的先验知识,设计了一个数据提取表,包含与我们的研究问题相关的不同数据项。在使用数据提取表对论文进行第一次检查后,对数据项进行了添加、删除和精炼。对于所选的每一篇文章,提取了大约70个数据项,涵盖了5个类别:文章来源、理论基础、使用的数据、脑电图处理方法、DL方法和报告结果。表3列出并定义了每个类别中包含的不同项目。

在表1中,第一个类别包括文章的来源,即文章是否来自期刊、会议出版物或预印本库,以及第一作者所属国家。第二类,所选研究的主要应用领域。第三,所选论文所用数据的所有相关信息。这包括数据的来源和数据收集参数,以及每项研究中可获得的数据量。第四,脑电信号处理参数类别,包括预处理步骤、伪迹处理方法以及特征提取。第五,DL方法的细节,包括DL设计、训练程序和检查方法。第六,结果类别,以及它们的报告方式。最后,通过查看数据和代码的可用性来量化所选文章的可再现性。

表1 所选的每个项目提取的数据项

3. 结果

数据库查询产生了553个匹配搜索词的不同结果。然后利用最初论文的参考部分确定了另外49篇论文。根据我们的纳入和排除标准,共排除448篇论文。另有一篇文章因已撤回而被排除在外。因此,我们选取了154篇论文进行分析。

大多数研究(86%)专注于使用DL对脑电图数据进行分类,最显著的是用于睡眠分期、癫痫检测和预测、脑机接口(BCI)以及认知和情感监测。相反,约9%的研究集中在处理工具的改进上,如从脑电图学习特征、处理伪影或可视化训练模型。其余的论文(5%)探索了从脑电图生成数据的方法,例如增强数据或生成基于脑电图的图像。

在2010年代早期,包含空前数量示例的大型数据集的可用性经常被认为是深度学习研究的主要推动因素之一。我们使用两种不同的测量方法来报告综述研究中使用的数据量:(1)深度学习网络可用的示例数量和(2)研究中使用的脑电图记录的总时长,以分钟为单位。图2的左栏显示了用于每个研究分析的脑电图数据量(以分钟为单位),包括训练、验证和/或测试。因此,这里报告的时间不一定对应于实验的总记录时间(s)。图2的中间图显示了模型可用示例的数量,无论是用于训练、验证还是测试。该数字具有相关的可变性,因为一些研究使用具有显著重叠的滑动窗口产生了许多示例。图2的右图显示了以分钟为单位的数据量与示例数量之间的比率。不同域之间的数据量差异很大。在睡眠和癫痫等领域,脑电图记录持续数小时(例如一整晚),但在情感和认知监测等领域,数据通常来自几个小时甚至几分钟的实验室实验。

图2所选研究使用的数据量。

每个点代表一个数据集。左边的列显示了根据使用的脑电图记录的总长度,以分钟为单位的数据集。中间的一栏显示了从可用的脑电图记录中提取的样本数量。右栏显示脑电图记录的样本数与分钟数之比。

通常与数据量相关,研究对象的数量在不同研究中也有很大的差异(见图3)。在选定的研究中使用的数据集有一半包含少于13个对象。特别是,有6项研究使用的数据集的受试者数量要大得多:有4项研究使用的数据集都包含至少250个被试,而另外两个研究分别使用了包含10000和16000个被试的数据集。如后面所述,DL-EEG未开发的潜力可能在于结合来自许多不同被试和/或数据集的数据,以训练一个模型,该模型可以捕获公共底层特征,并更好地泛化。

图3 数据集中每个研究的被试数。每个点代表一个选定的研究使用的数据集。

各研究中使用的设备又存在差异,我们查看了被选中的研究用于收集数据的脑电图设备的类型,并强调了低成本的,通常被称为“消费者”脑电图设备,与传统的“研究”或“医疗”脑电图设备相比(见图4(a))。我们将低成本EEG设备松散定义为低于1000美元的设备。所选研究使用1-256个电极记录脑电图数据,半数研究使用8-62个电极记录脑电图数据(见图4(b))。在大多数情况下,添加电极可以提高空间分辨率,从而改善可能的分析。然而,在其他电极附近添加一个电极可能不会提供明显不同的信息,但会增加准备时间和参与者的不适,并需要更昂贵的设备。结果显示,使用不同数量电极研究相同的被试可能会得到不一样的结果,一项研究评估了不同电极配置对睡眠阶段任务的影响,研究人员发现,将电极的数量从2个增加到6个可以带来最高的性能提升,而增加额外的传感器(总共22个)也可以改善性能,但效果不如原来。

3.1 数据增加

数据增加是一种从现有训练数据中人工生成新数据示例的技术。数据增加在计算机视觉等其他领域已经被证明是有效的。增加更多的训练示例可以使用包含更多参数的更复杂模型,同时减少过拟合。如果处理得当,数据增加可以提高准确性和稳定性,为新数据提供更好的泛化。在154篇综述论文中,有三篇论文明确探讨了数据增加对DL-EEG的影响。首先,在一篇文章中,对训练数据加入高斯噪声,得到了新的样本。该方法在两个不同的情绪分类公共数据集上进行了测试。他们使用LeNet将SEED数据集的准确率从49.6%(无增强)提高到74.3%(有增强),使用ResNet从34.2%(无增强)提高到75.0%(有增强),使用ResNet将MAHNOB-HCI数据集的准确率从40.8%(无增强)提高到45.4%(有增强)。尽管结果令人印象深刻,但值得注意的是,他们还将LeNet和ResNet与SVM进行了比较,后者在SEED数据集上的准确率分别为74.2%(没有)和73.4%(有)。在另一篇文章中,利用条件深度卷积生成对抗网络(cDCGAN)在BCI图像数据集上生成人工脑电图信号。使用CNN,结果表明,数据增加有助于将运动图像分类的准确率从83%提高到86%左右。另有30篇论文明确地以某种形式使用了数据增强,但只有少数研究了它对性能的影响。

许多研究也使用重叠窗口作为一种增强增加的方法,尽管许多研究并没有明确将其定义为数据增加。结果表明,通过更小的窗口移动生成更多的训练样本,性能显著提高。其他程序使用脑电固有的空间和时间特征来增加他们的数据。在研究中,作者通过交换左右两侧的电极,将数据翻了一番。他们声称,由于这项任务是一个对称问题,哪一侧大脑表达反应并不会影响分类。还有的研究使用降采样后的数据作为新数据。

最后,在可用样本数量比对应类别小数量级的情况下,对罕见事件进行分类是数据扩充的另一个动机。在脑电图分类中,癫痫发作或过渡睡眠阶段(如S1和S3)往往导致这种不平衡的分类。有的研究通过在每个训练时期采样时随机平衡所有类别来解决类别不平衡问题。同样,还有研究通过使用平衡抽样策略最大化来进行平衡。在一项研究中,发作间期类的脑电图片段被分成与发作前类大小相同的更小的亚组。还有作者从少数族裔中随机复制了受试者,以平衡各族裔。还有的研究人员通过增加重叠窗口的方式平衡数据从而实现了精度增加。

3.2 EEG数据处理

在脑电图处理中使用深度学习的动机之一是自动特征学习。此外,对脑电信号进行预处理和清除伪迹是脑电信号处理流程中的一个重要步骤。因此,在本节中,我们将研究与数据准备相关的方面,例如预处理、伪迹处理和特征提取。

EEG数据预处理通常包括几个通用步骤,如下采样、带通滤波和加窗。在回顾论文的过程中,我们发现在研究中使用了不同数量的预处理步骤。有的研究使用了大量的预处理步骤,而有的研究甚至没有使用预处理。根据是否使用预处理步骤,我们将论文分为三类:“是的”,在使用预处理步骤的情况下;“不”,当作者明确提到不需要预处理时;当没有提供任何信息时,没有被提及(“N/M”),结果如图4所示。

图4 EEG处理选择。

(a)使用预处理步骤的研究数量;(b)在其数据中是否去除伪迹的研究数量;(c)用作拟议模型输入的特征类型。

相当大比例的综述文章(72%)采用了至少一种预处理方法,如降采样或重参考。这一结果并不奇怪,因为DNN在其他领域的应用,如计算机视觉,通常也需要一些预处理,如归一化。

伪影处理技术用于去除特定类型的噪声,如眼睛和肌肉伪影。去除伪影对于获得良好的脑电图解码性能至关重要。伪迹去除可能需要专业人员的参与,不同的技术在不同程度上利用了人类的知识,可能完全依赖于专家,如在视觉检查的情况下,或者需要先验知识来简单地调整超参数。常用的方法有ICA独立成分分析。为了研究在使用深度神经网络时从脑电图中去除伪像的必要性,我们将所选论文分成三类,与预处理分析类似(见图9)。近一半的研究都未使用伪迹去除方法,考虑到这些结果,我们相信在脑电信号上使用DNN(深度神经网络)可能是一种避免经典脑电信号处理流程的显式伪影去除步骤而又不影响任务性能的方法。特征提取是传统脑电处理流程中要求最高的步骤之一,本文中许多论文的主要目的是通过使用深度神经网络进行自动特征学习来完成这一步,这方面似乎是研究人员感兴趣的领域。另一方面,相当大比例的综述论文使用人工设计的特征作为深度神经网络的输入。例如,有作者使用了通过短时傅里叶变换(STFT)获得的EEG的时频域表示来检测用户偏好(喜欢和不喜欢)。同样,Truong等人使用STFT作为二维EEG表征,利用CNN预测癫痫发作。此外,还有一些研究采用了特征组合,如PSD特征,以及熵、峰度、分形分量等作为提出的CNN的输入,用于检测缺血性脑卒中。

由于大部分脑电图特征是在频域获得的,我们的分析根据各自的输入类型将本文涵盖的文章分成四类。即,类别为:“原始脑电图”(包括已预处理的脑电图时间序列,如过滤或伪迹去除)、“频域”、“组合”(在使用了多种类型特征的情况下)和“其他”(对于既不使用原始脑电图也不使用频域特征的论文)。图9显示了我们的分析结果。可以观察到,49%的论文仅使用原始脑电图数据作为输入,而49%使用人工设计的特征,其中38%对应于频域衍生特征。

3.3深度学习方法

神经网络结构是基于动态脑电信号处理流程的关键选择。在本节中,我们的目标是回答关于这个主题的几个问题,即:(1)“最常用的架构是什么?”(2)“这些年来发生了什么变化?”,(3)“架构的选择与输入特性有关吗?”和(4)“在DL-EEG中使用的网络有多深?”

为了回答前三个问题,我们将154篇论文中使用的架构划分并分配到以下组:CNN、RNN、AEs、RBM、DBNs、GANs、FC网络、CNN和RNN的组合(CNN+RNN),以及其他类别。图5(a)显示了使用不同架构的研究的百分比。40%的论文使用了CNN,而RNN和AEs分别为约13%。7%的研究使用了CNN和RNN的组合。RBM和DBN同时对应了几乎10%的文章。6%的论文采用了FC神经网络。GANs和其他架构出现在6%的文章中。请注意,4%的论文没有报告他们的选择。

在图5(b)中,我们提供了架构类型跨年份分布的可视化。直到2014年底,DBN和FC网络组成了大部分研究。然而,自2015年以来,CNN一直是大多数研究的类型选择。有趣的是,我们还观察到,随着论文数量的增长,使用CNN以及循环层和卷积层组合的研究比例一直在稳步增长。后者表明,RNN在脑电图分析中越来越受关注。另一方面,RBM、DBN和AEs等架构的使用一直在减少。通常,使用这些架构的模型使用两步训练过程,包括(1)无监督特征学习和(2)在学习到的特征上训练分类器。然而,我们注意到,最近的研究利用CNN的分层特征学习能力来实现端到端监督特征学习,即:同时训练特征提取器和分类器。为了补充前面的结果,我们交叉检查了图5中提供的体系结构和输入类型信息。结果如图5(c)所示,并清楚地显示了这一点,CNN确实更多地使用原始脑电图数据作为输入。

图5 在选定的研究中使用的深度学习架构。

(a)结构。(b)结构的年分布。(c)按结构类别分配输入类型。(d)神经网络层数分布。

深度神经网络通常由很多层组成,提供分层处理。虽然人们可能认为深度神经网络的使用意味着架构中存在大量的层,但在文献中对这一定义并没有绝对的共识。在这里,我们调查这方面,并表明层的数量不一定大。在图5(d)中,我们根据各个体系结构中的层数显示了论文的分布。对于报告不同架构和不同层数结果的研究,我们只考虑最高的值。我们观察到,所选的大多数研究(128)都使用了最多10层的架构。对于计算机视觉应用中常用的架构,如VGG-16(16层)和ResNet-18(18层),我们观察到,目前关于DL-EEG的文献表明,较浅的模型具有更好的性能。

一些研究专门研究了增加模型深度的效果。Zhang等评估了深度为2-10的模型在一项脑力负荷分类任务中的表现。七层架构在精度、F-measure和G-mean方面都优于浅层(两层和四层)和深层(10层)模型。此外,O'Shea等人比较了6层和11层CNN在新生儿癫痫发作检测中的表现。他们的结果表明,在这种情况下,更深的网络在ROC AUC下的面积比浅层模型更好。也有人研究了深度对CNN性能的影响。作者比较了两层和三层卷积CNN在动态条件下对SSVEP进行分类的结果。考虑到训练数据的不同量,浅层架构在所有场景中都优于三层架构。这三个例子为DL-EEG研究的现状提供了一个代表性的观点,即:我们不可能得出结论,深层模型或浅层模型在所有情况下都表现得更好。我们需要根据具体情况来进行调整,根据具体特征来设置具体的架构。

文献中关于模型训练的细节是非常重要的,因为不同的方法和超参数的选择可以极大地影响神经网络的性能。将深度神经网络应用于脑电图处理的优势之一是,可以同时训练特征提取器和模型,以执行下游任务,如分类或回归。然而,在一些研究中,这两个任务是分开执行的。在训练这些模型提供合适的EEG输入信号表示后,新特征被用作目标任务的输入,一般来说,就是分类。在其他情况下,预先训练的模型用于不同的目的,如物体识别,并对特定的脑电图任务进行微调,以提供更好的初始化或正则化效果。

为了调查文章的训练程序,我们根据所采用的训练程序对每篇文章进行了分类。没有经过任何训练前学习的参数模型被分配到“标准”组。其余的研究,指定了训练程序,包括在“训练前”类,方法为上述中的一种。最后,采用不同方法进行训练的论文,如共同学习,被纳入“其他”组。图6(a)中展示了分类结果。几乎一半的论文没有使用任何训练前策略,而25%的论文使用了。尽管训练策略对于深度神经网络获得良好性能至关重要,但25%的选定研究没有在其论文中明确描述它。

图6深度学习方法选择。

(a)研究中使用的训练方法,(b)报告使用正则化方法的研究数量,以及(c)研究中使用的优化器类型。在本文中,我们将正则化定义为对由神经网络参数化的可能函数集的任何约束,旨在提高其在训练过程中对不可见数据的性能。有几种正则化神经网络的方法,其中最常见的是权值衰减(L2和L1正则化)、早停法和标签平滑。在图6中,我们展示了各组研究的比例。从图6可以注意到,超过一半的研究采用了至少一种正则化方法。Hefron等使用早停法、L1-和l2正则化的组合来学习不同参与者的时间和频率表征。类似地,Längkvist和Loutfi结合了两种类型的正则化,目的是开发一个适合于自动睡眠阶段分类任务的模型。

学习一个深度神经网络的参数,在实践中,是一个优化问题。解决这个问题的最佳方法在深度学习文献中仍然是一个开放的研究问题,因为在最小化代价函数方面找到一个好的解决方案和由泛化缺口表示的局部最优性能之间往往存在一个折衷,即训练误差和测试集上估计的真实误差之间的差值。在这种情况下,参数更新规则的选择,即学习算法或优化器,可能是获得良好结果的关键。

图11报告了最常用的优化器。一个令人惊讶的发现是,即使优化器的选择是DL-EEG的一个基本方面,47%的研究没有报告采用了哪种参数更新规则。此外,30%使用Adam,17%使用随机梯度下降法。6%的论文使用了不同的优化器,如RMSprop、Adagrad和Adadelta。

从实际的角度来看,优化学习算法的超参数通常会占用训练过程中的大部分时间。为了尽量减少寻找合适的超参数集的时间,文献中已经提出了几种方法。常用方法的例子有网格搜索和贝叶斯优化。网格搜索包括确定要调优的每个参数的值范围,在这个范围内选择值,并评估模型,通常在一个考虑所有组合的验证集中进行。贝叶斯优化则定义超参数空间上的后验分布,并根据模型获得的性能迭代更新其值,该超参数集对应于预期后验。结果显示,本文涵盖的80%的文章没有提到超参数搜索策略的使用。

3.4训练模型的检验

在本节中,我们回顾研究是否以及如何检查了他们提出的模型。在选定的研究中,27%报告检查了他们的模型。两项研究更具体地关注DL和EEG背景下的模型检验问题。最常见的模型检查技术包括对训练模型的权重的分析。这通常只需要关注第一层的权重,因为它们对输入数据的解释很简单。事实上,权重的绝对值代表了模型使用的相应输入维度的强度——因此,更高的值可以被解释为特征重要性的粗略度量。然而,对于更深的层次,神经网络的层次性意味着很难理解权重的作用。

许多研究中使用了模型激活分析。这种检测方法通常包括在多个例子中可视化训练模型的激活,从而推断网络的不同部分对已知输入的反应。在网络中引入的输入摄动网络预测相关图技术,通过试图识别输入和模型决策之间的因果关系,进一步推动了这一思想。为此,首先在时域或频域对输入进行扰动,以改变其振幅或相位特性,然后输入到网络中。一些研究还使用了基于反向传播的技术来生成输入图谱,最大限度地激活特定单元。这些图谱可以用来推断特定神经元的作用,或者它们对哪种输入敏感。

最后,有研究中使用了一些模型检测技术。例如,对类激活图(CAM)技术进行了扩展,以克服其对脑电数据的局限性。要在CNN中使用CAMs,最后一层卷积层的通道激活必须在空间上平均,然后被送入模型的倒数第二层,也就是FC层。对于一个特定的输入图像,然后可以创建一个地图,通过计算最后一层卷积通道激活的加权平均值,突出显示对决策贡献最大的图像部分。其他技术包括:Deeplift,显著性映射,输入-特征单元-输出相关映射,检索最近的示例,对传输层的性能分析,最活跃的输入窗口分析,生成的输出分析,以及去除滤波器。

3.5结果报告

DL方法在脑电信号上的性能值得关注,因为目前尚不清楚DL方法是否能优于传统的脑电信号处理过程。因此,我们在本文中要回答的一个主要问题是:“DL是否比传统的脑电图方法表现更好?”然而,回答这个问题并不简单,因为基准数据集、基准模型、性能指标和报告方法在不同的研究中都存在很大差异。相比之下,DL的其他应用领域,如计算机视觉和自然语言处理,受益于标准化的数据集和报告方法。 因此,为了提供尽可能令人满意的答案,我们采取了双管齐下的方法。首先,我们回顾了这些研究是如何通过关注可直接量化的项目来报告其结果的:(1)在每个研究中用作比较的基线类型,(2)绩效指标,(3)验证程序,以及(4)统计训练的使用。其次,基于这些观点,并关注报告与基线模型的准确性比较的研究,我们分析了大多数研究的性能。

3.5.1基线类型

当使用一个新的模型、体系结构或方法来解决一个已经存在的问题时,有必要将新模型的性能与用于感兴趣的问题的最先进的模型的性能进行比较。事实上,如果没有基线比较,就不可能评估所提出的方法是否比目前最先进的方法有任何优势。

比较点通常通过两种不同的方式获得:(1)(重新)实现标准模型或(2)引用已发布的模型。在第一种情况下,作者将实现他们自己的基线模型,通常使用更简单的模型,并评估他们在相同任务和相同条件下的性能。这样的比较是有益的,但往往不能反映具体任务的实际技术水平。在第二种情况下,作者将引用以前报告相同任务和/或数据集结果的文献。第二种选择并不总是可行的,特别是在处理私有数据集或过去没有太多探索的任务时。

在典型的脑电图分类任务中,目前最先进的方法通常涉及传统的处理流程,包括特征提取和浅层/经典机器学习模型。考虑到这一点,所选择的研究中68.2%至少包括一个传统处理方法作为基线模型(见图15)。一些研究反而(或也)将其性能与基于DL的方法进行了比较,以强调通过使用不同的架构或培训方法获得的增量改进:因此,34.4%的研究至少包括一个基于DL的模型作为基线模型。

图7所选研究的可重复性。

(a)研究中使用的数据集的可用性,(b)代码的可用性,(c)用于评估训练模型性能的基线类型,以及(d)研究的估计可重复性水平。

3.7.2性能标准

专注于脑电图分类的研究所使用的性能指标类型如图8(a)所示。大多数研究使用了来自混淆矩阵的指标,如:准确性、敏感性、F1评分、ROC AUC和精度。不关注脑电图信号分类的研究也主要使用准确性作为衡量标准。

图8 性能指标和交叉验证方法。

(a)选定的研究中使用的指标的类型。(b)交叉验证方法。

3.7.3验证过程

当评估一个机器学习模型时,测量它的泛化性能是很重要的,即它在看不见的数据上的表现如何。为了做到这一点,通常的做法是将可用数据划分为训练集和测试集。当需要调优超参数时,测试集上的性能不能再作为模型泛化性能的无偏评估。因此,将训练集划分为第三个集,称为“验证集”,用于选择最佳超参数配置,让测试集以无偏倚的方式评估最佳模型的性能。然而,当可用的数据量很小时,将数据划分为不同的集,只使用子集进行训练,会严重影响需要数据的模型的性能。在这些情况下,使用了一个称为“交叉验证”的过程,数据被分解成不同的分区,然后这些分区将依次用作训练数据或验证数据。

所选研究中使用的交叉验证技术如图8(b)所示。一些研究提到使用交叉验证,但没有提供任何细节。“训练-有效-测试”类别包括对训练/有效、训练/测试或训练/有效/测试进行随机排列的研究,以及提到将数据分成训练集、验证集和测试集的研究,但没有提供关于验证方法的任何细节。

3.7.4处理的主题

一项研究关注的是主题内分类还是主题间分类对成绩有影响。在单个主题的数据上训练和使用的主题内部模型,通常会导致更高的性能,因为模型需要考虑的数据可变性更少。然而,这意味着模型所训练的数据是从单个主题获得的,因此通常只包含少量的记录。在跨主题的研究中,模型通常会看到更多的数据,因为包含了多个主题,但必须应对更大的数据可变性,这就带来了不同的挑战。

在主题间分类的情况下,验证程序的选择对模型的报告性能有很大的影响。Leave-N-Subject-Out过程使用不同的主题进行训练和测试,可能会导致较低的性能,但适用于现实场景。在选定的研究中,108项使用跨主题方法的研究中,有23项使用了Leave-N-Subjects-Out或Leave-One-Subjects-Out程序。在选定的研究中,26%只关注主题内分类,62%只关注主题间分类,8%的人两方面都关注,4%的人没有提及。

图9显示,在过去的几年里,有一个明显的趋势,即利用DL进行主题间分析,而不是主题内分析。有研究作者使用了一个大型数据集,并在新的(看不见的)主题和已知的(见过的)主题上测试了他们的模型的性能。他们对看不见的受试者的准确率为38%,对见过的受试者的准确率为75%。

3.7.5统计检验

为了评估所使用的模型是否真的优于基准模型,使用统计检验是有用的。总共有19.5%的选定研究使用统计检验来比较其模型与基线模型的性能。最常用的检验是Wilcoxon符号秩检验,其次是方差分析。

3.7.6结果比较

尽管如上所述,许多因素使这种比较不精确,但我们将在本节中展示所提出的方法和传统基线模型如何进行比较,正如所选研究报告的那样。

我们专注于研究的一个特定子集,以使比较更有意义。首先,我们关注那些报告准确性作为任务绩效的直接衡量标准的研究。如图8(a)所示,这包括绝大多数研究。其次,我们只报告将他们的模型与传统基线进行比较的研究,因为我们感兴趣的是DL方法是否比非DL方法产生更好的结果。第三,一些研究在多个任务或数据集上评估了他们的方法。在这种情况下,我们报告与基线关联最多的任务的结果。如果多于一个,我们要么报告所有的任务,要么对非常相似的任务进行汇总。在多模态研究的情况下,我们只报告在只有脑电图的任务上的表现。最后,当报告准确性差异时,我们将重点放在每个任务中最佳使用模型和最佳基线模型之间的差异。

图9显示了每个领域类型的每个建议模型和相应基线之间的准确性差异,以及在所有包括的研究和任务中的相应分布。

图9对于报告准确性而言,每个DL模型与相应基线模型之间的准确性存在差异。

使用DL的精度中值提高5.4%,四分位差范围为9.4%。只有四个值是负值,这四个研究意味着使用的DL方法导致了比基线更低的性能。在一项复制研究中,准确率提高最高(76.7%),这是由于实验设计和预处理策略存在缺陷所致。因此,在所选的文章中,有一篇所取得的改进是最高的(35.3%的脑力工作量级别分类任务)。在该研究中,一个贝叶斯分类器在各种特征(包括频谱和信息理论特征)上训练,然后进行主成分分析(PCA),作为基线。

3.8复现性

可再现性是科学的基石:拥有可再现的结果是推动一个领域向前发展的基础,特别是在新思想传播非常迅速的机器学习等领域。在这里,我们使用两个关键标准来评估被选中论文的结果被复制的难易程度:他们的数据的可用性和他们的代码的可用性。

在审查的154项研究中,53%使用了公共数据,42%使用了私人数据,4%同时使用了公共和私人数据。特别地,专注于BCI、癫痫、睡眠和情感监测的研究使用了最多的公开数据集。有趣的是,在认知监测方面,没有使用公开数据集,该领域的论文都依赖于内部记录。正好有33篇(21%)的论文明确提到需要更多的公开数据来支持DL-EEG的研究。在临床环境中,标记数据的缺乏,而不是数据的数量,被明确指出是一个障碍。源代码方面,只有20篇(13%)论文选择在线提供。因此,考虑到数据和代码的可用性,154项研究中只有12项(8%)可以使用相同的数据和代码轻松地重现,如图7。

此外,值得注意的是,为了完美地再现一项研究的结果,作者还需要共享网络的权值(即参数)。共享代码和网络架构可能还不够,因为重新训练网络可能会收敛到一个不同的最小值。另一方面,如果获得了性能更好的模型,对网络进行再训练也可能最终产生更好的结果。

4.讨论

在本节中,我们将回顾结果部分中最重要的发现,并讨论上面强调的各种趋势的重要性和影响。我们还为DL-EEG研究提供了建议,并提出了一份清单,以确保重现性。

4.1原理

可以预计,本次综述中选择的大多数论文将侧重于脑电图数据的分类,因为DL历来在监督分类问题上带来了重要的改进。但有趣的是,一些论文也关注了DL可能或促进的新应用:例如,基于脑电图生成图像、生成脑电图、学科之间的迁移学习或特征学习。使用DL的主要动机之一被综述的论文引用,是使用原始脑电图没有人工特征提取步骤的能力。我们希望这些超越使用DL作为传统处理替代品的应用程序能够流行起来

4.2数据

在脑电图数据中使用DL的关键问题仍然是“多少数据才是足够的数据?”在3.3节中,我们通过观察不同的描述维度来探讨这个问题:受试者数量、记录的脑电图数量、训练/测试/验证示例的数量、使用的采样率和数据增强方案。

虽然无法给出明确的答案,但我们的分析结果表明,至少可以匹配传统方法的性能所需的数据量已经存在。在审查的154篇论文中,只有6篇报告DL方法的性能低于传统基准。为了在有限的数据量下实现这些结果,浅层架构通常是首选。当只有有限的数据可用时,数据增强技术也被成功地用于提高性能。然而,需要做更多的工作来清楚地评估它们的优点和缺点。事实上,尽管许多研究使用重叠滑动窗口,但似乎对使用最佳重叠百分比没有共识。BCI研究在这一超参数上具有最高的可变性,而临床应用,如睡眠分期,已经显得更加标准化,大多数研究使用30s非重叠窗口。

许多作者在他们的论文中总结说,获得更多的数据最有可能提高他们的模型的性能。随着大型数据集的公开,如TUH数据集和国家睡眠研究资源,类似于计算机视觉中使用的更深层次的架构可能会变得越来越有用。但是,需要注意的是,数据的可用性在不同的域之间是非常不同的。在睡眠和癫痫等临床领域,数据通常来自医院数据库,其中包含数名患者多年的记录,而其他领域通常依赖于数量有限的实验对象的数据。

虽然数据量对于在机器学习任务中实现高性能是至关重要的(特别是对于深度学习),但数据的质量也非常重要。在深度学习的许多应用领域中,输入数据通常具有较高的信噪比:在CV和NLP中,例如,容易获得几乎无噪声的图像和自然语言摘录。另一方面,脑电图数据可以在许多不同的水平上累积噪声,这使得从噪声中学习变得更加困难。大多数情况下,一旦数据被记录下来,噪声是不可能或非常难以减轻的。每个类中示例数量的平衡也可以极大地提高大型数据集的有效性。简而言之,我们认为在评估数据集的有用性时,必须同时考虑数据的数量和质量,电生理数据尤其如此。

由于DL-EEG是高度数据驱动的,在发布结果时,明确指定使用的数据量和澄清术语是很重要的。我们注意到许多研究并没有清楚地描述他们的脑电图数据使用,因此使得读者很难或者不可能评估工作和他人进行比较。

4.3数据处理

研究发现,绝大多数的文献在将脑电数据输入深度神经网络或提取特征之前,都对其进行了预处理。尽管观察到这一趋势,我们也注意到,最近的研究使用完全原始的脑电图数据优于各自的基线。因此,在使用DNN时是否有必要对脑电图数据进行预处理的问题仍然难以回答。

由于所考虑的大多数工作都没有使用或明确提到使用的伪影去除方法,因此似乎通常不需要这个脑电图处理步骤。然而,我们应该注意到,在特定的情况下,如任务本身会引起快速的眼球运动,伪迹处理对于获得所需的性能可能仍然是至关重要的。

我们关注的一个重要方面是是否有必要使用EEG特征作为DNN的输入。在分析了每篇论文使用的输入类型后,我们观察到,使用特征或原始脑电图时间序列作为输入没有明显的偏好。我们注意到,大多数使用CNN的论文使用原始脑电图作为输入。随着CNN越来越受欢迎,我们可以得出这样的结论:使用原始脑电图代替人工设计的特征是一种趋势。

从我们的分析中,我们还旨在确定在尝试从头解决问题时应该使用哪种输入类型。虽然答案取决于许多因素,如应用领域,我们观察到,在某些情况下,原始脑电图始终优于使用经典的提取特征。例如,对于癫痫的分类,最近提出的使用原始脑电图数据作为输入的模型比经典的基线方法取得了更好的性能。对于这项特殊的任务,我们相信遵循使用原始脑电图数据的当前趋势是开始探索新方法的最好方法。

4.4深度学习方法

本文的另一个主要主题是DL方法本身。我们的分析集中于架构趋势和培训决策,以及模型选择。

4.4.1结构

鉴于脑电图固有的时间结构,我们预计RNN将比没有明确考虑时间依赖性的模型得到更广泛的应用。然而,几乎一半被选中的论文使用的是CNN。这一发现与最近关于CNN处理时间序列有效性的讨论和发现是一致的。我们还注意到,基于能量的模型(如RBM)的使用一直在减少,而另一方面,计算机视觉领域的流行架构(如GANs)也开始应用于脑电图数据。

此外,在结构深度方面,大多数论文使用的层数少于5层。当将这一数字与流行的物体识别模型(如VGG和ResNet)进行比较时,我们得出结论,对于脑电图数据,浅层网络目前是必要的。

4.4.2训练和优化

虽然在使用神经网络时获得良好的结果至关重要,但只有20%的论文采用了一些超参数搜索策略。更少的研究提供了关于所使用方法的详细信息。其中,Stober等人描述了他们的超参数选择方法并引用了其相应的实现;此外,本文还给出了每个搜索试验迭代次数的可用预算以及交叉验证分割。

4.4.3模型检测

检查训练有素的DL模型是很重要的,因为与更传统的方法相比,DNN被认为是黑匣子。事实上,直观的模型检查技术,如可视化线性分类器的权值,并不适用于深度神经网络;因此,他们的决定更难以理解。这在临床环境中是有问题的,例如,理解和解释分类模型做出的选择可能是作出知情的临床选择的关键。神经科学家也可能对模型决策的驱动因素感兴趣,并利用这些信息来形成关于大脑功能的假说。

尽管它可以在任何基于精细脑电图特征的机器模型中表现出来,但DL加剧了识别信息模式是来自大脑活动还是人工活动的问题。特别是考虑到基于原始数据的端到端模型(这是本综述中几乎一半的研究的情况),任何与学习任务目标相关的模式都可能最终被模型用于驱动决策。当没有对伪迹进行处理时(至少46%的研究),那么很可能是伪迹组件,其振幅通常比实际强得多。在许多特别关注分类性能的应用中(如BCI、睡眠分期、癫痫检测),对于人为因素是测量条件的稳健协变量的受试者来说,这可能不是问题。然而,如果最终目标要求系统完全依靠大脑活动,有必要进行伪迹处理程序,尽可能检查模型训练。

4.5结果报告

我们的分析侧重于研究如何在相同的数据上比较他们的模型和传统的脑电图处理的分类准确性。尽管绝大多数研究报告了对传统过程的改进,但对这一结果必须持怀疑态度。首先,精确度上的差异并不能说明全部问题,例如,10%的提高通常比40%到50%更难达到80%到90%。但更重要的是,很少有文章报道了负面的改善,这可以解释为发表偏向于积极的结果。报告的基线比较差异很大:一些使用简单的模型(例如结合直接的频谱特征和线性分类器),另一些使用更复杂的方法(包括多种特征和非线性方法),而很少有研究重新实现或引用了在同一数据集和/或任务上发布的最先进的模型。通常,基线模型的描述也过于简洁,无法有效地评估基线对于给定任务是否最优。由于与简单的基线相比,观察到的改善可能会更高,因此我们报告的值可能会有积极的偏见。此外,使用了许多不同的任务和数据集。这些数据集通常是私有的,这意味着关于它们的报道非常有限或没有以前的文献。最重要的是,缺乏可再现性标准。

机器学习领域采取了不同的方法来解决结果报告和基准测试的异质性问题。例如,OpenML是一个在线平台,它促进了实验的共享和运行,以及模型的基准测试。截至2018年11月,该平台已经包含一个脑电图数据集和多个提交。MOABB是为脑机接口领域量身定制的解决方案,是一个软件框架,用于确保BCI实验的可重复性,并为许多BCI数据集提供公共基准。此外,在过去的几年里,已经组织了一些EEG/MEG/ECoG分类在线比赛,例如Physionet challenge或Kaggle平台上的各种比赛。这些比赛非正式地充当了基准:它们提供了标准化的训练和测试数据集,以及列出每个选手成绩的排行榜。研究人员可以利用这些数据和程序。

4.6再现性

所有研究对公共脑电图数据集的大量使用表明,开放数据对DL-EEG的最新发展做出了巨大贡献。另一方面,42%的研究使用了不公开的数据——尤其是在认知监测等领域。因此,为了推动该领域的发展,创建新的基准数据集和共享内部记录非常重要。此外,绝大多数论文没有提供他们的代码。因此,许多被评审的论文更难复制:数据不可用,代码没有被共享,用于比较模型性能的基准模型要么不存在,要么不可用。

最近推动数据和代码共享最佳实践的举措将有利于DL-EEG领域。FAIR神经科学和脑成像数据结构(BIDS)都为如何获取、组织和共享数据和代码提供了指导方针和标准。最近也提出了针对EEG和MEG的BID扩展。此外,还提供了开源软件工具箱进行脑电DL实验。

4.7建议

为了提高DL-EEG领域工作的质量和可重复性,我们在表1中提出了6项指导方针。此外,附录B列出了对确保可重复性至关重要的项目清单,这些项目应列入今后的研究。最近也有人提出了一个类似的清单,但主要针对机器学习出版物。除了这篇论文,我们还在http://dl-eeg.com上发布了我们的数据项表和相关代码。

表1 对未来DL-EEG研究的建议。请参阅附录B以获得要包括的项目的详细列表。

附录B DL-EEG研究项目清单

本节包含我们认为DL-EEG论文应提及的项目清单,以确保其发表的结果易于重现。未来DL-EEG研究的文本或补充材料中,应在某一点或另一点明确说明以下信息:

B.1 数据

受试者数量(及相关人口统计数据)

电极情况(包括参考点)(通道数及其位置)

一个示例的形状(例如“256个样本×16个通道”)

数据增强技术(例如,滑动窗口的重叠百分比)

训练、验证和测试集中的示例数量

B.2 EEG预处理

时间过滤,如果有的话

空间过滤,如果有的话

伪迹处理技术,如果有的话

重采样,如果有的话

B.3 神经网络结构

结构类型

层的数量

可学习参数的数量

B.4 超参数训练

初始化参数

损失函数

批处理大小

分段的数量

停止准则

正则化(例如权值衰减等)

优化算法

学习速率计划和优化器参数

计算结果中所有超参数(包括随机种子)的值

超参数搜索方法

B.5 性能和模型比较

性能指标(例如f1分数、准确性等)

验证方案类型

基线模型的描述(完整的描述或对已发布工作的引用)

5. 总结

脑电图作为一种功能性神经成像工具的用途是明确的:睡眠障碍和癫痫的临床诊断,认知和情感状态的监测,以及脑机接口都严重依赖于脑电图的分析。然而,各种挑战仍有待解决。例如,目前由人类专家执行的耗时任务,如睡眠分期,可以自动化,以提高基于脑电图的诊断的可用性和灵活性。此外,要使BCI真正发挥作用,就需要在主体之间有更好的泛化性能。DL被认为是解决这些挑战的潜在候选人。

在本文中,我们通过分析154篇发表的研究来强调当前DL-EEG领域的发展趋势。我们关注了这些研究的几个关键方面,包括它们的起源、理论基础、使用的数据、脑电图处理方法、DL方法、报告的结果和可重复性水平。在分析的主要趋势中,我们发现:

(1)DL主要用于脑机接口、睡眠、癫痫、认知和情感监测等领域的脑电图分类;

(2)使用的数据量变化很大;

(3)在脑电数据处理中成功应用了不同的架构,最常用的依次是CNN、RNN和AEs;

(4)与人工制作的特征相比,人们对使用原始EEG作为输入的兴趣明显增加;

(5)几乎所有的研究都报告,与其他基线和基准相比,使用DL有小的改善;

(6)虽然有几项研究使用了公开的数据,但只有少数共享其代码——因此,审查的绝大多数研究无法轻易复制。

此外,考虑到结果报告方式的高度可变性,我们提出了6项建议,以确保结果的可重复性和公平比较:(1)清晰地描述架构,(2)清晰地描述使用的数据,(3)尽可能地使用现有的数据集,(4)包括最先进的基线,最好使用原始作者的代码,(5)尽可能地共享内部记录,(6)共享代码,因为这是让别人接替你工作的最好方式。

最后,为了帮助DL-EEG社区维护一个最新发布的工作列表,我们将我们的数据项表开放并在线可用。复制这次审查的统计数据和数字的代码以及论文的完整摘要也可以在http://dl-eeg.com上找到。

  • 3
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值