【文献翻译】ChronoNet: A Deep Recurrent Neural Network for Abnormal EEG Identification

32 篇文章 1 订阅
17 篇文章 1 订阅

ChronoNet:一种用于异常脑电图识别的深度循环神经网络

摘要

癫痫等脑相关疾病可以通过分析脑电图(EEG)来诊断。然而,人工分析脑电图数据需要经过高度训练的临床医生,并且是一种已知具有相对较低的内部评分一致性(IRA)的程序。此外,数据量和新数据可用的速度使人工解释成为一个耗时、耗费资源和昂贵的过程。相比之下,脑电图数据的自动化分析通过缩短诊断时间和减少人工错误,为提高病人护理质量提供了潜力。在这篇论文中,我们将重点放在解读脑电图会话的第一步——识别大脑活动是否异常或正常。为了解决这一特定的任务,我们提出了一种新的循环神经网络(RNN)架构,称为ChronoNet,其灵感来自于图像分类领域的最新发展,旨在有效地处理脑电图数据。ChronoNet由多个一维卷积层叠加形成,然后是深层门控循环单元(deep gated recurrent unit, GRU)层,每个一维卷积层使用多个长度指数变化的滤波器,堆叠的GRU层以前馈方式紧密连接。我们使用最近发布的TUH异常脑电图语料库数据集来评估ChronoNet的性能。与以往使用该数据集的研究不同,ChronoNet直接以时间序列EEG作为输入,学习大脑活动模式的有意义表示。ChronoNet在此数据集上的表现优于先前报告的结果,因此设定了一个新的基准。此外,我们通过成功地将ChronoNet应用于分类语音命令来证明它的领域独立性质。



1 引言

脑电图(EEG)是一种通过记录患者颅骨和头皮的脑电活动来测量大脑活动的非侵入性方法,经常用于各种神经系统疾病的诊断和治疗,如癫痫、睡眠病、昏迷、脑病等。尽管与磁共振成像(MRI)和计算机断层扫描(CT)等脑成像技术相比,脑电图的空间分辨率较低,但由于其卓越的时间分辨率、低成本和无创性,脑电图已成为医生们流行的诊断工具。

由于症状并不能保证在任何时候都出现在脑电图信号中,通过脑电图解释来诊断神经系统疾病通常需要长期监测或多次短时间会话的记录。在这个过程中,会产生大量的数据,随后需要由专家调查人员手工解释。认证的专家研究人员相对较少,且数据量大,这使得脑电图的解读过程非常耗时,可能会在患者的治疗过程中造成数小时至数周的延迟。在脑电图解释任务中引入一定程度的自动化可以帮助神经科医生加快阅读过程,从而减少工作量。正因为如此,近年来,机器学习技术对EEG的自动解释得到了广泛的应用[7,20]。

当解读脑电图记录时,首先要评估所记录的信号是按照[15]表现出异常还是正常的大脑活动模式。这一决定可以影响开哪种药物或是否需要进一步的调查。通常,在决定记录显示的脑电图是正常还是异常时,都要考虑记录中的模式和病人的意识状态。训练有素的临床医生通常会根据一个复杂的决策表来进行区分。

我们工作背后的动机是自动化解释的第一步。我们使用最近发布的TUH异常脑电图语料库(TUH Abnormal EEG Corpus)来实现这一点,该语料库是迄今为止最大的此类数据集[17],可在[1]免费获得。受时域信号分类成功的启发,我们利用原始EEG时间序列信号作为输入,探索循环神经网络(RNN)架构。这使我们与之前的文献[15,16,19]有所不同,在之前的文献中,作者使用了传统的机器学习算法,如k近邻、随机森林和隐藏马尔科夫模型,以及现代的深度学习技术,如卷积神经网络(CNN),但没有使用RNNs来完成这项任务

与最初使用手工设计特征的研究相比[15,16],我们表明,将原始时间序列和rnn相结合,消除了提取手工设计特征的需要,并允许分类器自动学习相关模式,比他们的结果高出3.51%。从一维卷积层[8]、门控循环单元[4]、初始模块[22]和密集连接的网络[13]中汲取灵感,我们构建了一种名为ChronoNet的新型深门控RNN,其精度进一步提高了4.26%,与[15,16]报道的结果相比,总体提高了7.77%。此外,与最近发表的显示该数据集最先进性能的研究相比,ChronoNet获得了1.17%的更好的结果,从而为TUH异常脑电图语料库设置了一个新的基准。综上所述,本文的主要贡献有:

  • 网络架构:我们将初始层与指数变化的核长度用于一维卷积层,并结合紧密相连的循环层。
  • 应用:我们在EEG分类任务中实现了最先进的性能,并系统地展示了每个成分如何影响性能

通过将ChronoNet应用于语音命令数据集[25],我们展示了它对于一般时间序列分析的实用性,而不仅仅是EEG解释。



2 背景与理论

原始脑电图信号是一种时间记录,可以在不同的时间尺度上表现出规律和周期性。一种成功地用于分类时间信号的方法,例如语音,是使用循环神经网络(RNNs)。在本节中,我们首先描述RNN的工作原理。接下来是一个现代和复杂的循环单元的描述,称为门控循环单元(GRU),它非常适合学习长期的依赖性和相关性。然后,我们将讨论初始模块和密集连接神经网络的概念(在卷积神经网络中使用的概念),我们将使用这些概念对EEG数据进行分析,以分别解释出现在不同尺度上的模式和缓解消失梯度。这些原理和模块的集合为理解第3节中提出的ChronoNet架构提供了必要的基础。

2.1 循环神经网络

RNNs是一种用于处理可变长度序列数据的神经网络。RNN保持着一个循环的隐藏状态,它每次的激活都依赖于前一个时间步的激活。更正式的说法是,给定一个序列 x = ( x 1 , x 2 , … , x T ) x = (x_1, x_2,…, x_T) x=(x1,x2xT),在每个时间步长t时,RNN根据当前输入向量 x T x_T xT和前一隐状态 h t − 1 h_{t−1} ht1更新其递归隐状态 h t h_t ht,如下所示:
在这里插入图片描述
在经典的RNN中,对式(1)的递归隐单元进行如下更新:
在这里插入图片描述
其中f是一个点态非线性激活函数,如logistic s形函数或双曲正切函数。虽然式(2)允许RNN处理任意长度的序列,但可以观察到,在训练[3]时, f f f的梯度可以在长序列上指数增长或衰减。这种现象使得RNN很难学习长期的依赖性和相关性。解决这个问题的一种方法是设计更复杂的循环单位,通过使用门控单位计算一个仿射变换,然后是一个简单的单元非线性。目前常用的两种模型是长短期记忆(LSTM)[11,9]和门控循环单元(GRU)[4]。虽然已有研究表明LSTM和GRU的表现明显优于经典rnn,但两者中哪一个表现更好尚未得到最终的证明[6]。在本文中,我们使用GRU,因为它比LSTM使用更少的参数,因此在需要数据进行泛化的情况下提供了更快的训练时间


2.2 门控循环单元

门控循环单元(GRU)通过在由式(2)导出的中间候选隐藏状态 h ~ t \widetilde{h}_t h t与前一个隐藏状态 h t h_t ht的值之间执行线性插值产生隐藏状态 h t − 1 h_{t-1} ht1的当前值。一个GRU使用两个门:一个更新门 z t z_t zt控制前一个状态被覆盖的程度,一个重置门 r t r_t rt决定在计算候选隐藏状态时前一个状态应该被遗忘的程度。更正式的GRU模型可以用以下数学形式表示:
在这里插入图片描述
其中 g g g σ σ σ为非线性激活函数,⊙表示element-wise乘法。


2.3 Inception模块

Inception模块是由Szegedy等人提出的,[22]作为GoogLeNet架构的构建模块。与传统的卷积神经网络不同,Inception模块在卷积层中使用不同大小的过滤器来捕获不同抽象层次的特征。对不同尺度的视觉信息进行处理和聚合,可以使网络有效地提取相关特征。通常,该模块使用三个尺寸为1 × 1,3 × 3和5 × 5的过滤器。此外,还提出了一种可选的并行路径,实现了3 × 3最大池操作。然而,天真地在卷积层中引入更多的过滤器会增加参数的数量。与传统的CNN相比,这使得网络的训练在计算上更加密集。因此,在Inception模块中包含1 × 1过滤器,以实现降维的“bottleneck层”。


2.4 DenseNet

DenseNet是[13]最近提出的一种深度卷积神经网络体系结构。DenseNet的主要思想是,它以前馈方式将每一层与其他每一层连接起来。每一层使用前面所有层的特征图作为输入,并将自己的特征图作为输入传递给后面所有层。因此,传统的L层CNN有L连接,而DenseNet中有 L ( L + 1 ) / 2 L(L + 1)/2 L(L+1)/2个直接连接。

DenseNet减轻了在非常深的网络[10]中观察到的消失/爆炸梯度的问题。它通过在反向传播期间为梯度提供快捷路径来实现这一点。这允许学习算法在训练过程中选择适当的模型复杂度。



3 方法

Inception模块(见2.3节)最初被提出是为了使卷积神经网络能够在图像处理的背景下考虑不同的抽象层。类似地,Dense连接的网络(见第2.4节)被开发用于解决深度卷积神经网络中由于反向传播而消失的梯度。如前所述,EEG数据包含了时域不同尺度的信息。此外,使用深度RNN架构可能会导致梯度消失或爆炸的问题。因此,如果设计得当,Inception模块和紧密连接的层的优点可以同样适用于时域的问题。在下一节中,我们将使用Inception模块和Dense连接网络的概念来构建用于时间序列分类的新型循环神经网络架构。


3.1 卷积门控循环神经网络(C-RNN)

考虑到输入是一个时间序列,一个明显的第一种方法是叠加多个GRU层,如图1a所示。这种处理顺序输入数据的流行架构已经在各种模式识别任务中实现了最先进的准确性,特别是在自然语言处理中[24,26]。

然而,当应用于相对较长的输入时间序列数据时(而不是在自然语言处理的情况下嵌入向量[18]),这种方法被证明是计算非常密集和耗时的训练。为了解决这个问题,可以将数据下采样到一个可接受的长度,然后再将其作为输入给RNN。然而,使用固定值意味着网络将无法适应手头的数据。为了缓解这些问题,我们使用了stride大于1的多个一维卷积(Conv1D)层,使网络学会自动适当减小输入信号。

最终的结构(C-RNN)是Conv1D层和GRU层叠加的组合[23,5]。Conv1D层有两个优点。首先,他们学习对信号进行下采样,因此,当我们向更高的层移动时,减少输入向量的长度。当到达GRU层时,这一点变得尤为重要,因为GRU层在训练过程中构成了网络中计算开销最大的部分。其次,Conv1D层从邻近的时间点提取局部信息,这是学习时间相关性的第一步。在Conv1D层之后,GRU层负责捕获短期和长期依赖关系。本文所使用的具体网络如图1b所示。整篇论文中用来描述Conv1D和GRU层的格式分别是(层名、过滤器长度、过滤器数量、步幅大小)和(层名、过滤器数量)。


3.2 Inception卷积门控循环神经网络(IC-RNN)

在之前的C-RNN架构中,每个Conv1D层仅能在单一固定滤波器大小决定的一个时间尺度上提取局部信息,限制了模型的灵活性。由于时间序列中信息的变化速率取决于手头的任务,每个Conv1D层的过滤器大小必须被手工挑选以适应特定的数据。

为了解决这个问题,我们从[22]中获得灵感,设计了一个在C-RNN基础上扩展的架构,在每个Conv1D层中包含多个不同大小的过滤器。这允许网络在多个时间尺度上提取信息。然而,与[22]不同的是,在IC-RNN中,在Conv1D层中使用的滤波器长度是从对数刻度而不是线性刻度绘制的,导致滤波器长度呈指数变化。我们的实验表明,对于本文所考虑的数据集,指数变化的滤波器长度可以带来更好的性能。我们推测,这是因为与相关特征以相同数量级变化的图像相比,在时间序列中,特征存在的时间尺度范围要宽得多。请注意,据我们所知,本文中首次报道了具有指数变化的过滤器大小的初始模块。我们实验中使用的具体配置如图1c所示。Filter Concat层沿着深度轴连接传入的特征。
在这里插入图片描述

3.3 卷积密连门控循环神经网络(C-DRNN)

C-RNN体系结构并非不受退化问题的影响,退化有时会阻碍非常深的神经网络[10]的训练。对于不需要C-RNN提供的模型复杂性的全部潜力的更简单的问题,优化过程可能会导致更高的训练误差。为了解决这一问题,受[13]为CNN提出的DenseNet架构的启发,我们在C-RNN的堆叠GRU层中加入skip connections,形成C-DRNN架构。每个GRU层以前馈方式连接到其他GRU层。直观地说,当数据对模型复杂度的要求低于整个网络时,skip connections将导致GRU层被忽略。网络的详细信息如图2a所示。


3.4 ChronoNet: Inception卷积密连门控循环神经网络

最后,我们将前两个网络(IC-RNN和C-DRNN)的改进与C-RNN结合起来,形成ChronoNet架构。据我们所知,这是第一次报道这种架构。综上所述,ChronoNet由多个Conv1D层和多个GRU层叠加而成,每个Conv1D层有多个不同大小的滤波器,堆叠的GRU层以前馈方式紧密连接。

Conv1D层中多个滤波器的存在允许ChronoNet从不同的时间尺度提取和组合特征。卷积1D层的最佳滤波器尺寸通常取决于手头的任务和它在网络中的相对位置。ChronoNet具有探索每个Conv1D层的多个滤波器长度的灵活性。另一方面,密集连接的GRU层使ChronoNet能够缓解消失或爆炸梯度导致的训练精度下降的问题。这可能使ChronoNet的深度变体能够用于更复杂的任务。此外,密集连接也加强了GRU层中特征的传播和重用。我们为本文考虑的异常EEG分类任务设计的网络如图2b所示。
在这里插入图片描述



4 实验

在本节中,我们简要描述数据集,我们使用的数据增强技术,并介绍和讨论得到的结果。

4.1 数据选择

在本文中,我们主要关注TUH异常脑电图语料库[16],它包含被标注为临床异常或正常的脑电图记录。TUH异常脑电图语料库是世界上最大的临床脑电图数据公开数据库——TUH脑电图语料库[17]的子集。TUH脑电图语料库包括超过13551例患者的23257次脑电图记录。在整个数据集中,75%的数据代表了异常的脑电图会话。TUH脑电图异常语料库通过人工检索选择了人口统计学上均衡的子集,分别包含1488个异常和1529个正常脑电图会话,形成TUH脑电图异常语料库。这些集合进一步划分为训练集(1361异常/1379正常)和测试集(127异常/150正常)


4.2 数据准备

TUH异常脑电图语料由根据10/20电极配置[12]记录的脑电图会话组成。我们根据美国临床神经生理学协会[2]提出的指导方针,将记录的脑电图信号转换成一组蒙太奇或差值。在本论文中,我们使用横向中央顶叶(TCP)蒙太奇系统来强调尖峰活动[16]。请注意,我们没有从数据集中提取任何手工设计的特征,因为我们预想在本文中使用的深度RNN将能够自动提取相关特征并学习有意义的表示。

在最初的研究[16]中,作者注意到神经学家仅通过检查信号的初始部分就可以准确地将脑电图分为异常或正常。这激发了作者建立机器学习算法,可以通过只将最初的一分钟数据作为输入来分类脑电图信号。因此,通过从可用的脑电图会话中提取第一分钟来生成训练集和测试集。请注意,在测试期间,只使用了第一分钟来实现分类器与人类级别性能的公平比较。另一方面,仅使用第一分钟来创建训练集是一个设计选择,其动机是第一分钟可能是测试集的最具代表性的事实。一旦电极被放置在头皮上并开始记录数据,由于外部因素(如缓慢干燥的导电膏),阻抗和信号会逐渐改变。为了与[16]进行公平的比较,我们只在第1分钟训练我们的模型,并在4.3中报告得到的结果

然而,使用上述方法极大地限制了可用于训练的数据量。这导致了两个问题。首先,深度学习是一种需要大量数据的技术,当训练集中包含更多数据时,性能会显著提高。其次,当应用于小数据集时,神经网络有快速过拟合的趋势,这种效应会随着网络的深度而增强,正如本文所考虑的那样。为了不让自己受到不必要的限制,我们分析了在训练过程中包括不止第一分钟的效果。这是通过从最初的训练中选择一个随机的会话子集,排除以后用于测试的任何样本来完成的。结果集被进一步划分为更小的训练集和测试集。这些训练集的每分钟都训练不同的模型。我们分析了这些模型在中间小测试集的第一分钟性能。

实验结果表明,我们可以在不降低性能的情况下使用高达11分钟的训练脑电图数据。这使得我们的训练数据比[16]中使用的方法增加了11倍。我们实验中使用的最终训练集和测试集的大小如表1所示。

在这个数据集中,大多数记录是在250 Hz的采样频率下完成的。如果不是这样,会话被重新采样到250hz。网络的输入向量为1分钟,由15000个时间点组成
在这里插入图片描述

4.3 结果

我们使用上面描述的数据集来训练第3节中介绍的四个深度循环神经网络架构。使用自适应矩估计优化(the adaptive moment estimation optimization)[14]算法训练网络,学习率为0.001。此外,我们使用了64个批处理大小,并训练了500个epoch的网络。表2列出了这些实验5次重复的平均精度。包括到目前为止在这个数据集上报告的结果进行比较。在[16]中,作者探索了各种机器和深度学习算法,观察到将从输入时间序列信号中提取的频率特征馈送到卷积神经网络16,可以获得最佳性能。在[19]中,作者使用了一个由自动超参数搜索构建的深度卷积神经网络(表2中的DeepCNN)),并报告了迄今为止最好的准确性。
在这里插入图片描述
表2清楚地描述了本文中探索的深层循环神经体系结构优于原始研究[16]中使用CNN-MLP显示的结果。值得注意的是,与CNN-MLP相比,所提议的体系结构不依赖于手工制作的特性。此外,我们看到C-RNN、IC-RNN、C-DRNN和ChronoNet的准确度分别比[16]报告的最佳准确度高3.51%、5.31%、5.09%和7.77%。此外,与最近发布的最先进的性能[19]相比,ChronoNet的准确性提高了1.17%。在四种反复使用的架构中,ChronoNet实现了最好的训练和测试准确性。这表明,在Conv1D层中包含多个滤波器和在GRU层中合并密集连接的联合积极效应比使用其中一个或不使用它们更明显。此外,我们的实验表明,当GRU被LSTM取代时,ChronoNet产生了类似的性能(86.64%,平均超过5次运行),然而,具有LSTM单元的网络比其GRU对等物需要更长的训练时间。(LSTM训练时间长

训练和测试数据集在TUH异常脑电图语料库中被预先分割,以使每组数据集在人口统计学上是平衡的(性别和年龄),并且没有患者同时出现在训练和测试集中。为了证明该网络没有过度拟合测试集上的超参数,我们将TUH异常脑电图语料库中提供的训练和测试集结合起来,并执行5倍交叉验证,为所提出的体系结构提供测试准确性。采用5倍交叉验证方法,我们获得了86.14%的准确率。

请注意,在训练集中使用的EEG记录的数量与在该数据集上的其他工作中使用的数量相同。虽然最初的研究[16]只使用了第一分钟,但我们发现训练集中可以包含多于第一分钟的内容。如果只在第一分钟进行训练,即当训练集与其他工作完全相同时,ChronoNet达到85.27%的准确率(平均超过5次运行),比[16]好6.47%。

为了证明在ChronoNet的Conv1D层中指数变化的滤波器尺寸是一个必要的组成部分,我们进行了两个实验。首先,实现了长度为3、5和7的更短(与ChronoNet中使用的最长1D卷积滤波器相比)的线性变化滤波器。因此,训练和测试的准确率分别下降到89.15%和85.12%。其次,实现长度为14、16和18的较长但线性变化的滤波器。训练正确率提高到91.25%,测试正确率降低到85.92%。我们推测,在这两种情况下,网络提取的特征都不够多样化,而且在后者,模型复杂性的增加导致过拟合


4.4 除了脑电识别

ChronoNet的主要优势在于其灵活性和适应性,旨在有效地发现时间数据中不同时间尺度上的模式。在本文中,我们主要将ChronoNet应用于异常/正常脑电图的分类,它也可以应用于更广泛的时间序列分类领域。在一项初步研究中,我们使用ChronoNet来解决语音分类任务,使用的是一个最近发布的数据集,即语音命令数据集[25]。这个数据集包含了由30个短单词组成的一秒长的话语,这些话语由数千个不同的人说出来。训练集、验证集和测试集的大小分别为64721、6798和6835个样本。使用如图2b所示的完全相同的架构,对于这个30个类的问题,我们达到了92.84%的测试精度(平均超过5次运行)。我们打算在不久的将来对不同的时域数据集进行更大的研究。



5 结论

诊断神经系统疾病的第一步通常是确定脑电图记录显示的是异常还是正常的大脑活动。由于人工解读脑电图是一个昂贵且耗时的过程,任何自动进行这一区分的分类器都有可能减少治疗延误,并减轻临床护理人员的负担。我们介绍了ChronoNet,一种新颖的网络架构,其设计具有灵活性和适应性,因此,特别适合于分析脑电图时间序列数据。这种新的RNN体系结构在使用的数据集上比之前报道的最好的精度提高了1.17%,设定了一个新的基准。为了证明它对时间序列数据的普遍适用性,我们进一步证明了ChronoNet能够成功地对语音进行分类。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值