VGG-TSwinformer: Transformer-based deep learning model for early Alzheimer’s disease prediction 论文笔记

VGG-TSwinformer: Transformer-based deep learning model for early Alzheimer’s disease prediction

本笔记主要是原文的简要翻译。

摘要

背景和目标:轻度认知障碍(MCI)是正常衰老和阿尔茨海默病(AD)之间的过渡状态,准确预测MCI的进展趋势对于早期预防和治疗AD至关重要。作为诊断AD的最重要的生物标志物之一,脑结构磁共振成像(sMRI)已经应用于各种深度学习模型中。然而,由于深度学习在处理纵向医学图像数据方面的固有劣势,深度学习在MCI纵向分析方面的应用很少,现有的大多数深度学习算法用于MCI进展预测都依赖于在单个时间点收集的sMRI图像的分析,忽略了该疾病的渐进性质。方法:在这项工作中,我们提出了一种基于卷积神经网络(CNN)和Transformer的VGG-TSwinformer模型,用于MCI的短期纵向研究。在这个模型中,基于VGG-16的CNN用于提取纵向sMRI图像的低级空间特征,并将这些低级特征映射到高级特征表示,滑动窗口注意力用于对空间上相邻的特征表示进行精细融合,并通过不同尺寸的注意力窗口的叠加逐渐融合远距离的空间特征表示,时间注意力用于衡量由于疾病进展而导致的特征表示的演变。结果:我们在ADNI数据集上验证了我们的模型。对于sMCI vs pMCI的分类任务,准确率、敏感度、特异度和AUC分别达到了77.2%、79.97%、71.59%和0.8153。与其他也应用于sMRI的横断面研究相比,所提出的模型在准确率、敏感度和AUC方面取得了更好的结果。结论:所提出的VGG-TSwinformer是用于MCI短期纵向研究的深度学习模型,它可以从纵向sMRI图像中构建脑萎缩进展模型,并提高了与仅使用横断面sMRI图像的算法相比的诊断效率。

在这里插入图片描述

介绍

人口老龄化日益严重,引发了各种老年疾病,其中阿尔茨海默病(AD)是最棘手的疾病之一。根据2022年阿尔茨海默病协会报告,目前有650万名65岁及以上的美国人患有AD。如果没有预防、减缓或治疗AD的医学突破,到2060年这一数字可能会增长到1380万人。AD是一种退行性且不可逆转的脑部疾病,随着疾病的进展,越来越多的脑神经元停止功能、失去连接,甚至死亡。此外,常见的AD相关解剖脑结构变异包括脑室扩大、海马形态萎缩、皮质厚度改变以及其他含有白质和灰质脑组织以及脑脊液的脑区的形态变化。

轻度认知障碍(MCI)是正常衰老和AD之间的过渡状态,大约有44%的MCI患者会在3年内转变为AD。如图1所示,对于潜在的AD患者,当他们从认知正常(CN)转变为MCI时,将迅速进展为AD。DSM-5标准将在接下来的3年内转变为AD的MCI患者分为渐进性MCI(pMCI)组,将在接下来的3年内未转变为AD的MCI患者分为稳定性MCI(sMCI)组。MCI患者经历认知下降,其大脑结构逐渐萎缩。Jack等人测量了CN、MCI和AD患者的海马体和内嗅皮层、整个大脑和脑室体积,并计算了1-5年内的脑萎缩率,结果显示具有转变为AD趋势的MCI的年度萎缩率最快,其次是稳定MCI,认知正常者最慢。虽然MCI患者在语言、记忆、思维能力等方面存在缺陷,但其症状不像AD那样严重,因此MCI常常被误认为是衰老的表现而不受重视,然而,当MCI完全转变为AD时,到目前为止尚无有效的药物和治疗方法可以治愈AD。区分pMCI和sMCI在AD的早期诊断中起着重要作用,可以帮助临床医生对疾病的进展采取有效的干预措施。然而,与AD和CN的分类相比,pMCI和sMCI的分类更具挑战性,因为pMCI和sMCI患者之间的认知和脑结构之间存在更微妙的差异。

对于AD的诊断有各种方法,包括脑脊液穿刺、脑电图、遗传测试、神经心理学检查、神经影像学检查等。其中,结构性磁共振成像(sMRI)可以直观反映患者的病理变化,并且由于其无创优势,更容易被患者和家属接受。此外,sMRI可以检测患有AD的患者的脑萎缩时间过程,可能作为患有可疑AD的人的病理变化的替代标志物。最近,随着计算机辅助诊断的兴起,已经开发了许多算法来基于sMRI图像预测MCI。基本上,这些算法使用在单个时间点获取的sMRI图像来预测诊断标签,忽略了该疾病的渐进性质。考虑到AD的潜伏期可能长达几十年,从单个横截面简单解释脑组织形态学变化无法清楚地揭示疾病的演变,而在多个时间点的随访观察可能具有临床意义。然而,由于深度学习在处理纵向医学图像数据方面的固有劣势,深度学习在MCI的纵向分析方面应用很少。

本文提出了一种名为VGG-TSwinformer的深度学习模型,基于纵向sMRI图像来建立MCI患者大脑结构随时间变化的模式。此外,将2年的固定时间间隔引入纵向sMRI图像,有助于建立疾病进展的时间轴。换句话说,本研究考虑了两个时间点上MCI患者的整个大脑形态,并通过VGG-TSwinformer模型对这两个时间点上的整个大脑形态进行建模,以获取患者整个大脑形态的变化模式。通过固定这两个时间点之间的间隔,引入疾病的演变速率,从而把握MCI患者的未来临床状况。我们旨在提出一个完全自动化的用于MCI的短期纵向研究的工作流程,包括MRI预处理、MRI特征提取、MRI特征融合和分类,可以自动识别脑部变化,无需专家手动标注,从而获得良好的泛化能力。我们的贡献如下:

  1. 在本研究中,提出了一种基于纵向sMRI图像的深度学习模型VGG-TSwinformer,用于建立MCI患者脑萎缩进展模型。此外,我们引入了2年的固定时间间隔到纵向sMRI图像中,有助于建立疾病进展的时间轴。
  2. 提出了一种新的滑动窗口注意力机制,用于对sMRI图像相邻空间特征进行精细融合,并通过不同尺寸的注意力窗口的叠加逐渐融合长距离空间特征。
  3. 使用时间注意力来建立由疾病进展导致的脑结构变化模式,在纵向sMRI图像中得到反映。

本文的剩余部分组织如下:第II节总结了一些相关工作并简要介绍了VGG-TSwinformer模型。第III节详细介绍了VGG-TSwinformer模型的架构。第IV节介绍了实验结果和详细信息。最后,我们在第V节总结了我们的工作并对未来的工作进行了展望。

相关工作

深度学习是一种强大的技术,在许多机器学习(ML)问题上处于最前沿。最近,基于深度学习的辅助AD诊断取得了巨大成功,甚至超过了手动诊断。AD诊断方法根据其目标可分为两组:进展模型,旨在量化疾病的演变,如pMCI vs sMCI,以及分类模型,用于预测患者的诊断标签,如AD vs CN。

对于进展模型,Suk等人提出了一个新颖的框架,将稀疏回归和深度学习两种概念上不同的方法结合起来进行AD和MCI的诊断和预测,其中CNN被用作提取低级特征的弱学习器,而多个稀疏回归模型用于最终预测,在ADNI数据集上达到了74%的pMCI vs sMCI分类准确率。Basaia等人设计了一个基于3D CNN的体系结构,ADNI数据集上的pMCI vs sMCI分类准确率达到了75.1%。Li和Liu提出了一个结合3D CNN和RNN的网络。3D CNN提取了MRI单张图像的左右海马特征,而RNN建立了左右海马特征之间的关系。在pMCI vs sMCI的预测任务中,分类准确率达到了72.5%。Oh等人构建了一个基于卷积自动编码器(CAE)的无监督学习模型,用于对AD和CN进行分类,并将该模型转移到更复杂的pMCI vs sMCI分类任务中,取得了73.95%的准确率。最近,Altay等人提出了三个深度学习网络:3D CNN模型、3D循环视觉注意力模型和注意力Transformer模型,用于预测AD的临床前阶段,其中,注意力Transformer模型使用CNN提取3D sMRI图像的切片特征,并使用Transformer对切片之间的特征进行融合。实际上,预测AD的临床前阶段和预测pMCI/sMCI都是渐进性预测。综上所述,Suk等人、Basaia等人、Li和Liu、Oh等人、Altay等人充分利用了横断面sMRI图像进行预测,然而,像大多数分类模型一样,可能在当前疾病状态的预测上表现良好,但由于无法考虑纵向联系,渐进性预测存在固有的缺陷。

基于sMRI图像数据的MCI的纵向研究可以根据随访时间分为长期纵向研究和短期纵向研究。长期纵向研究可以清楚地跟踪MCI患者大脑形态的随时间变化。但在深度学习中,长期纵向研究意味着处理长序列的3D医学图像数据,这将导致高维数据量,使用小数据集训练高维数据存在过拟合的风险。Aghili等人手动提取了每个时间点的MRI皮层厚度、体积、海马形态和基于体素的组织特征,并使用RNN建立了提取特征之间的时间关系。然而,由于特征提取和分类器模型是独立的,提取的特征可能无法捕捉与AD相关的脑异常的全部特征。与长期纵向研究相比,短期纵向研究的MRI数据集相对充足,但MCI患者短期内的大脑形态学变化不够明显。此外,短期纵向研究的MRI数据集仍远远少于横断面研究的数据集,因此在有限的迭代训练中捕获这种细微的大脑结构变化以预测MCI进展成为短期纵向研究的挑战。Cui和Liu以及Cui等人使用3D CNN和多层感知器(MLP)分别从MRI中提取脑形态特征,并使用RNN融合这些特征以提取纵向变化信息。然而,整个MRI的特征表示可能会导致局部空间特征的减弱甚至丢失。此外,下一个时间点的RNN输出必须基于前一个时间点的输出,并且无法并行处理。

Transformer在计算机视觉中的成功可能会推动深度学习在短期纵向疾病研究中的应用。Transformer首先应用于自然语言处理领域,是一种基于自注意力的深度神经网络。Transformer利用自注意力机制来捕捉远程依赖关系,使模型能够关注输入序列中的所有元素,从而获得更好的性能。最近,Transformer在计算机视觉领域取得了突破。对于计算机视觉任务,已经提出了大量基于Transformer的方法,如用于目标检测的DETR,用于语义分割的SETR,以及用于图像识别的ViT和DeiT。将Swin Transformer作为视觉主干,在图像分类、目标检测和语义分割方面实现了最先进的性能。在Swin Transformer中,自注意力计算限制在不重叠的局部窗口内,同时还允许跨窗口连接。窗口注意力增强了图像的局部特征提取,通过注意力窗口的叠加逐渐提取全局图像特征。作为一种端到端的图像识别方法,CNN在过去几年中一直主导着计算机视觉领域:AlexNet、VGGNet、GoogLeNet和ResNet。与Transformer相比,CNN使用局部感受野、共享权重和空间下采样,具有学习和总结低级特征的优势。

考虑到CNN在总结低级特征方面的优势和Transformer在处理远程特征方面的优势,本文提出了一种基于CNN和Transformer的VGG-TSwinformer模型,该模型的整体架构如图5所示。我们使用在时间点T1和T2获取的两个sMRI图像作为MCI患者的纵向数据,分别表示为T1 sMRI图像和T2 sMRI图像。T1 sMRI图像和T2 sMRI图像被切片以获得两个2D切片序列:切片序列T1和切片序列T2,切片序列T1和切片序列T2被视为属于一个患者的样本。基于VGG-16的CNN用于提取切片的低级空间特征,并将切片编码为高级特征表示token,每个token对应一个2D切片,最终获得两个token序列:token序列T1和token序列T2。受到Swin Transformer的启发,我们提出了一个滑动窗口注意力机制,分别融合了token序列T1和token序列T2的局部空间信息,并通过窗口的叠加逐渐集成全局空间特征。我们提出的时间注意力可以在属于token序列T1和token序列T2的token之间执行特征融合,以提取患者大脑结构在时间T1到T2的局部萎缩进展模式。时间注意力和空间注意力的交替执行建立了由局部特征生成的变化信息之间的空间连接,最终获得了全局特征变化信息,可用于预测MCI的进展。

方法

VGG16编码网络

大脑的结构相对复杂,大致分为6个部分,每个部分包含多个大脑区域。VGG-16在AlexNet的基础上减小了卷积核的大小,并增加了卷积核的数量,因此更适合于大脑图像处理,并可以提取更抽象的特征。

本文使用基于VGG-16的CNN来提取每个样本切片序列T1和切片序列T2中切片的空间特征,并将其映射到高级特征表示token。基于VGG-16的CNN架构如图2所示。VGG-16基于CNN使用了VGG-16的13个卷积层和5个池化层,并在头部添加了一个卷积层进行切片的通道扩展,尾部添加了一个卷积层将特征图映射到token上。切片在扩展维度后变为112 × 112 × 3。经过VGG-16的一系列卷积、激活、池化操作后,输出特征图的大小为3 × 3 × 512。最后,一个卷积核大小为3 × 3,输入通道数为512,输出通道数为256的卷积层执行从特征图到token的映射。特征图I到特征图O的标准卷积计算过程公式如下:

O j = ReLU ( ∑ i ∈ M j I i ∗ k i j + b j ) \begin{equation} O_j = \text{ReLU} \left( \sum_{i \in M_j} I_i \ast k_{ij} + b_j \right) \end{equation} Oj=ReLU iMjIikij+bj
其中, O j O_j Oj是特征图O的第j个通道, I i I_i Ii是特征图I的第i个通道, M j M_j Mj是特征图I中的通道集合, k i j k_{ij} kij表示与 I i I_i Ii O j O_j Oj对应的卷积核, b j b_j bj表示卷积后的 O j O_j Oj的偏置偏移, ∗ \ast 表示卷积计算。ReLU是一种激活函数,将所有负输入变为0,而正值保持不变。对于输入t,ReLU表示为

ReLU ( t ) = { t , t > 0 0 , t ≤ 0 \begin{equation} \text{ReLU}(t) = \begin{cases} t, & t > 0 \\ 0, & t \leq 0 \end{cases} \end{equation} ReLU(t)={t,0,t>0t0
假设通过对特征图O进行最大池化得到特征图P,特征图P可以表示为

P j ( h , w ) = ω j ⋅ max ⁡ k h , k w O j ( h s + k h , w s + k w ) + b j \begin{equation} P_j(h, w) = \omega_j \cdot \max_{k_h, k_w} O_j(hs + k_h, ws + k_w) + b_j \end{equation} Pj(h,w)=ωjkh,kwmaxOj(hs+kh,ws+kw)+bj
其中, P j P_j Pj O j O_j Oj分别是特征图P和特征图O的第j个通道, h h h w w w分别是 P j P_j Pj的行数和列数, s s s是池化窗口的步长, K K K是池化窗口的大小, ω j \omega_j ωj b j b_j bj表示权重系数和偏置偏移参数,不同的输入特征图对应不同的权重系数和偏置偏移参数。VGG-16中的卷积操作提取了输入图像的最低级特征。每个卷积核提取的特征都不同,依次提取的卷积层组提取的局部特征数量为64、128、256和512。最后一个卷积层从512个特征中筛选出256个作为该切片的特征表示。

对切片序列T1和切片序列T2中的N个切片分别进行特征图到token的卷积映射,得到两个token序列:token序列T1和token序列T2,最终每个样本共有2N个token。我们使用正弦位置编码来嵌入token序列T1和token序列T2中同一位置的一对token的时间位置,并在token序列T1和token序列T2中嵌入序列内的空间位置。经过空间和时间位置嵌入后,2N个token被送入第一个时间注意力块。

Transformer

在自然语言处理(NLP)中,Transformer由两部分组成:编码器和解码器。编码器将输入(语言序列)映射到隐藏层,解码器将隐藏层映射到自然语言序列。由于在图像处理中不需要重新映射,我们遵循ViT [25],仅使用Transformer中的编码器部分(以下简称为Transformer)。

自注意力(SA)

自注意力是一种特征融合方法,用于捕捉特征之间的内部相关性。自注意力降低了不重要信息的权重,同时将权重倾向于有用的信息。SA的计算过程如下:首先,输入token被线性映射生成一组查询矩阵Q、关键矩阵K和值矩阵V,然后通过Q和K计算权重系数,最后使用得到的权重系数计算K中向量的加权和,即token之间的加权融合。如图3所示,SA的计算公式为
Attention ( Q , K , V ) = Softmax ( Q K T d k ) V \begin{equation} \text{Attention}(Q, K,V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \end{equation} Attention(Q,K,V)=Softmax(dk QKT)V
其中, d k d_k dk是关键向量K的维度, d k \sqrt{d_k} dk 提供适当的归一化以使梯度更稳定。

在这里插入图片描述

多头自注意力(MSA)

多头自注意力意味着输入token生成h组(称为h头)的查询矩阵、关键矩阵和值矩阵,并在每组查询矩阵、关键矩阵和值矩阵上执行SA操作。最后,连接h头的输出。如图4所示,MSA可以表示为
head i = Attention ( Q W i Q , K W i K , V W i V ) \begin{equation} \text{head}_i = \text{Attention}(QW_i^Q, KW_i^K,VW_i^V) \end{equation} headi=Attention(QWiQ,KWiK,VWiV)

MSA ( Q , K , V ) = Concat ( head 1 , … , head h ) W O \begin{equation} \text{MSA}(Q, K,V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O \end{equation} MSA(Q,K,V)=Concat(head1,,headh)WO

其中,投影矩阵 W i Q W_i^Q WiQ W i K W_i^K WiK W i V W_i^V WiV W O W^O WO是可训练参数矩阵, h h h是MSA头的数量。

结合上述内容,一个完整的Transformer块可以表示为
t ( x ) = MSA ( LN ( x ) ) + x \begin{equation} t(x) = \text{MSA}(\text{LN}(x)) + x \end{equation} t(x)=MSA(LN(x))+x

Transformer ( x ) = MLP ( LN ( t ( x ) ) ) + t ( x ) \begin{equation} \text{Transformer}(x) = \text{MLP}(\text{LN}(t(x))) + t(x) \end{equation} Transformer(x)=MLP(LN(t(x)))+t(x)

其中, x x x是输入的token,LN是层归一化 [34],应用于MSA和MLP之前。MLP由两个全连接层和残差连接组成,并在第一个全连接层中使用GELU [35]激活函数。

在这里插入图片描述

VGG-TSwinformer

本文提出的VGG-TSwinformer模型的架构如图5所示。基于VGG-16的CNN将每个切片映射到高级特征表示token。最后,表示切片系列T1和切片系列T2的token序列T1和token序列T2分别被送入第一个时间注意力块。在VGG-TSwinformer中,token序列T1和token序列T2各有10个注意力块,其中token序列T1和token序列T2各有5个空间注意力块,并共享5个时间注意力块。为了更好地整合局部特征并尝试避免划分相同的冗余token,token序列T1和token序列T2的前四个空间注意力块交替设计为右滑动窗口(RSwin)注意力块和左滑动窗口(LSwin)注意力块。

对于MCI的短期纵向研究,我们需要关注随时间变化的大脑形态的变化,这些变化微妙且不容易检测。因此,如图5所示,在时间注意力块中,我们对相应位置的token执行MSA,即我们对T1 sMRI图像和T2 sMRI图像相应位置的轴向切片进行特征融合。此外,我们提出的滑动窗口注意力机制使得token序列T1和token序列T2的相应窗口范围内的token间接进行特征融合,从而使T1 sMRI图像和T2 sMRI图像的特征融合从相应的2D切片扩展到局部3D空间。一般来说,空间距离较近的特征之间的相关性往往比空间距离较远的特征之间的相关性更强。对于小型sMRI数据集,提出的滑动窗口注意力和时间注意力可以使模型更容易在有限的迭代训练中注意到局部特征的变化,从而将这些变化信息用于预测。

假设第 l 个块是时间注意力块,第 l + 1 个块是 RSwin(或 LSwin)注意力块,并且第 l - 1 个块的输出是 X l − 1 T 1 X_{l-1}^{T1} Xl1T1 和$ X_{l-1}^{T2}$。则可以表示为
X l − 1 T 1 = ( X l − 1 ( T 1 , 1 ) ; … ; X l − 1 ( T 1 , N ) ) \begin{equation} X_{l-1}^{T1} = (X_{l-1}^{(T1,1)}; \ldots ; X_{l-1}^{(T1,N)}) \end{equation} Xl1T1=(Xl1(T1,1);;Xl1(T1,N))

X l − 1 T 2 = ( X l − 1 ( T 2 , 1 ) ; … ; X l − 1 ( T 2 , N ) ) \begin{equation} X_{l-1}^{T2} = (X_{l-1}^{(T2,1)}; \ldots ; X_{l-1}^{(T2,N)}) \end{equation} Xl1T2=(Xl1(T2,1);;Xl1(T2,N))

其中, X l − 1 T 1 X_{l-1}^{T1} Xl1T1 X l − 1 T 2 X_{l-1}^{T2} Xl1T2分别是第l - 1个块之后的token序列T1和token序列T2, X l − 1 ( T 1 , i ) X_{l-1}^{(T1,i)} Xl1(T1,i) X l − 1 ( T 2 , i ) X_{l-1}^{(T2,i)} Xl1(T2,i) X l − 1 T 1 X_{l-1}^{T1} Xl1T1 X l − 1 T 2 X_{l-1}^{T2} Xl1T2的第i个token。

第l个时间注意力块是在token序列T1和token序列T2的相应位置的两个token之间执行MSA。假设第l个块的输出是 X l T 1 X_l^{T1} XlT1 X l T 2 X_l^{T2} XlT2 X l T 1 X_l^{T1} XlT1 X l T 2 X_l^{T2} XlT2可以表示为
X l T 1 = ( X l ( T 1 , 1 ) ; … ; X l ( T 1 , N ) ) \begin{equation} X_l^{T1} = (X_l^{(T1,1)}; \ldots ; X_l^{(T1,N)}) \end{equation} XlT1=(Xl(T1,1);;Xl(T1,N))

X l T 2 = ( X l ( T 2 , 1 ) ; … ; X l ( T 2 , N ) ) \begin{equation} X_l^{T2} = (X_l^{(T2,1)}; \ldots ; X_l^{(T2,N)}) \end{equation} XlT2=(Xl(T2,1);;Xl(T2,N))


( X l ( T 1 , i ) , X l ( T 2 , i ) ) = MSA ( X l − 1 ( T 1 , i ) ; X l − 1 ( T 2 , i ) ) , i = 1 , … , N (X_l^{(T1,i)}, X_l^{(T2,i)}) = \text{MSA}(X_{l-1}^{(T1,i)}; X_{l-1}^{(T2,i)}), i = 1, \ldots, N (Xl(T1,i),Xl(T2,i))=MSA(Xl1(T1,i);Xl1(T2,i)),i=1,,N
其中, X l T 1 X_l^{T1} XlT1 X l T 2 X_l^{T2} XlT2分别是第l个时间注意力块之后的token序列T1和token序列T2, X l ( T 1 , i ) X_l^{(T1,i)} Xl(T1,i) X l ( T 2 , i ) X_l^{(T2,i)} Xl(T2,i)分别是 X l T 1 X_l^{T1} XlT1 X l T 2 X_l^{T2} XlT2的第i个token。

然后,在 X l T 1 X_l^{T1} XlT1 X l T 2 X_l^{T2} XlT2上分别执行第l + 1个RSwin(或LSwin)注意力块。如图5所示,作为示范,在RSwin块中,窗口的划分是从左到右的。我们将窗口大小设置为3,窗口滑动步幅设置为1。步幅确定了两个窗口之间前后的重叠token的数量。我们将重叠token的平均值作为该位置的该块的输出,从而保留相邻窗口的边界信息。在图5中的LSwin块中,窗口的划分是从右到左的。我们将窗口大小设置为3,窗口滑动步幅设置为2。可以看出,在完整窗口划分后仍然存在冗余token,并且窗口继续向左滑动以生成一个新的不完整窗口,并在窗口内执行MSA。

假设 X l + 1 T 1 X_{l+1}^{T1} Xl+1T1 X l + 1 T 2 X_{l+1}^{T2} Xl+1T2是由 X l T 1 X_l^{T1} XlT1 X l T 2 X_l^{T2} XlT2经过RSwin(或LSwin)注意力块得到的。算法1和算法2分别展示了 X l + 1 T 2 X_{l+1}^{T2} Xl+1T2的RSwin和LSwin块的计算过程,其中Wi表示第i个注意力窗口的输出,w是注意力窗口的大小,N是包含在token序列T1或token序列T2中的token数,num是本RSwin(或LSwin)注意力块中完整窗口的总数,s是窗口滑动的步幅,s < w,ceil()是向上取整函数,M ∈ R(num+1)×N×C用于存储每个窗口的计算结果。对于 X l + 1 T 1 X_{l+1}^{T1} Xl+1T1,其计算过程与 X l + 1 ( T 2 ) X_{l+1}^{(T2)} Xl+1(T2)的计算过程相同。

如图5所示,在token序列T2的最后一个空间注意力块中,对token序列T2中的所有token执行MSA。对于token序列T1,其计算过程与token序列T2的计算过程相同。表1显示了token序列T1和token序列T2的四个滑动窗口注意力块的配置详情。token序列T1和token序列T2最后一个空间注意力块的输出token被平均并送入分类器以获得最终预测。

结果

在这里插入图片描述

数据集

本研究采用阿尔茨海默病神经影像学倡议(ADNI)[36]数据库(http://adni.loni.usc.edu)来验证所提出模型的性能。ADNI成立于2003年,由首席研究员Michael W. Weiner博士领导,是一个用于阿尔茨海默病的临床和影像数据库,对公众开放。ADNI正在测试来自世界各地59个地点的5000多名受试者。其主要目标是通过磁共振成像(MRI)、正电子发射断层扫描(PET)和其他生物标志物,结合临床和神经心理评估,诊断轻度认知障碍和早期阿尔茨海默病。

由于本研究采用的sMRI图像来自ADNI 1/GO/2/3阶段,为了避免脑结构以外的因素对模型的影响,我们的研究基于预处理后的MRI。首先,使用FMRIB软件库(FSL)将sMRI图像归一化到MNI152标准空间。归一化后,所有图像的尺寸为182 × 218 × 182(X × Y × Z),每个体素的空间分辨率为1 × 1 × 1mm³,然后对空间标准化的sMRI图像进行颅骨切除,最后使用高级归一化工具(ANTs)进行统一的偏置场校正。图像预处理流程如图6所示。预处理后的sMRI图像根据轴向切片。在选择每个MRI图像的轴向切片时,我们从垂直轴向平面方向的中间向两端切片,即从第91个轴向切片开始切割40个轴向切片到每端,总共80个切片。最后,每个样本包含两个3D sMRI图像:sMRI图像T1和sMRI图像T2,对应于切片系列T1和切片系列T2在切片后。切片系列T1和切片系列T2具有相同数量的切片,每个切片的空间尺寸为182 × 218 × 1。

对于单个样本,如果患者在T2时被诊断为MCI并且在接下来的3年内没有进展到AD,我们将样本划分为稳定MCI(sMCI)组。如果患者在T2时被诊断为MCI,并且在随后的3年内出现AD转化,将样本划分为进展性MCI(pMCI)组。由于一个患者可能在多个时间点获取到sMRI图像,每个患者可能对应多个样本。在条件筛选后,从275名受试者中收集到823个样本。受试者的人口统计数据如表2所示,每个样本的T2时刻被视为该样本的收集时间。

设置

823个样本被划分为三个子集:训练集、验证集和测试集,其中65%用于训练,20%用于验证,15%用于测试。此外,我们必须确保不同子集中的样本不能来自同一受试者,换句话说,同一受试者的多个样本只能存在于训练、验证和测试子集中的一个。这非常重要,因为属于同一受试者的样本在图像结构上具有很高的相似性,这会导致模型过拟合。此外,为了增加数据集,采用了镜像翻转和随机旋转操作。对于每个样本中的两个切片序列,由于GPU的限制,我们在每个切片序列中设置了切片数量N = 80,令token维度C = 256。该模型以学习率1e−5和动量9e−5进行了100个epochs的训练。为了避免过拟合,我们选择了SGD [37]作为优化器,权重衰减为0.1。我们使用交叉熵 [38]作为损失函数。为了避免随机性,本研究进行了5次实验,每次实验随机选择不同的训练、验证和测试子集。

实验结果

对比实验

图7显示了训练期间验证数据集的平均准确率和标准差。可以看出,自第60个epoch以来,模型验证准确率已经收敛。在本研究中,与[18]中提出的“基础3D模型”、“3D循环视觉注意模型”和“注意力变换模型”进行了比较,并与提出的VGG-TSwinformer进行了比较。由于[18]中未采用时间注意力,因此当将这三个模型应用于本研究的数据集时,仅使用每个样本中的切片系列T2。对于每个模型进行了五次随机实验,并且随机种子与VGG-TSwinformer的相同,表3显示了三个对比模型和VGG-TSwinformer的测试准确率、灵敏度、特异度和AUC的平均值,图8给出了三个对比模型和VGG-TSwinformer的平均ROC曲线。此外,我们直接在表3中比较了最近基于sMRI的研究[14–17,20]在pMCI和sMCI分类任务中的表现。**为了消除由于不同数据集导致的算法性能偏差,我们仅比较了应用于ADNI数据集上的算法。从表3中实验结果的比较可以看出,所提出的模型在准确率、灵敏度和AUC方面优于基于横断面研究的深度学习算法,分别达到了77.2%、79.97%和0.8153。**值得一提的是,该方法的AUC和灵敏度明显优于其他方法,分别比第二名高出2.51和2.27个百分点。图9显示了训练好的VGG-TSwinformer模型对多个样本中的sMRI图像切片的注意力区域,我们通过在VGG-16的第二个池化层后的最后一个卷积层中应用Grad-CAM [39]来生成它。对热力图的分析显示,受影响最常见的脑部区域位于颞叶周围,包括杏仁核和海马体,这表明杏仁核和海马体的变化在MCI的进展中起着重要作用。其次常见的区域是角回、楔前叶和中颞回等,但它们仅存在于一些患者中,并且比海马体更少见。此外,在一些被正确分类样本的注意力热力图中,上述常见的区分区域的迹象并不明显,这表明除了这些常见区分区域外,一些脑功能区域还具有辅助区分pMCI和sMCI的功能。值得注意的是,热力图中突出显示区域的形成不仅是由于T1和T2期间脑结构的纵向变化,还与T1和T2时刻脑结构的空间特征有关。VGG-TSwinformer利用这两个特征在MCI进展预测任务上取得了竞争性的性能,但没有加以区分。通过使用脑形态的纵向变化来视觉显示MRI的进展,有助于临床医生在一定时间内掌握MCI患者局部脑部的变化。这可以作为另一个研究方向进行探索。

在这里插入图片描述

在这里插入图片描述

消融实验

为了证明我们的模型对变化中的脑结构更敏感,我们进行了对照实验。我们保持了模型架构不变,只是在每个样本中将切片系列T1中的所有切片替换为切片系列T2中的切片,也就是说,每个样本包含两个完全相同的切片系列。我们进行了5个对照实验,并且每个对照实验的数据集划分与原始实验一致。所获得的平均准确率、灵敏度、特异度和AUC如表4所示。

可以看出,当样本不再包含MCI患者脑结构变化的信息时,模型的性能与其他算法相比并不具竞争力,这表明VGG-TSwinformer可以利用患者脑结构变化的信息来提高性能。此外,原始实验的灵敏度高于对照实验,表明模型对变化中的脑结构更为敏感。然而,原始实验的特异度低于对照实验。较高的灵敏度意味着漏诊率较低,实际上,在绝大多数临床诊断中,漏诊比误诊更不可接受。

为了调查使用预训练CNN是否会提高模型性能,我们在VGG-TSwinformer中使用了加载了预训练权重的VGG-16,并将其与从头开始训练的模型进行了比较。如表5所示,从头开始训练的模型的准确率、特异度和AUC优于预训练模型,证明使用预训练的VGG并不会提高模型的预测性能。

MRI有三个平面视图:轴位(将身体分为上下两半)、冠状位(垂直)和矢状位(身体中线)。我们比较了使用不同平面切片的模型性能。对于冠状面,从第109个冠状切片到每个端点取40个切片,在每个sMRI图像中总共获取80个切片;对于矢状面,从第91个矢状切片到每个端点取40个切片,在每个sMRI图像中总共获取80个切片。从表6中可以看出,模型的效果会根据平面选择而变化。总体而言,当使用轴位切片时,模型具有最佳的综合性能,但灵敏度和特异度低于冠状位和矢状位。因此,仅使用单个平面切片无法充分提取3D MRI的特征,结合三个平面切片可能会达到更好的性能。

在这里插入图片描述

结论

本文提出了一种新颖的深度学习模型VGG-TSwinformer,用于MCI的纵向研究。在这个模型中,基于VGG-16的CNN被用来从sMRI图像切片中提取特征,并将它们编码为高级特征表示的标记。采用了时间注意力机制来链接纵向的sMRI图像,以获取MCI患者脑结构变化的信息。滑动窗口注意力机制可以充分整合sMRI图像的局部空间特征,并通过不同大小的注意力窗口的叠加逐渐整合远程空间特征。我们在ADNI数据库上验证了我们模型的性能,实验结果表明,与基于sMRI的横断面研究相比,提出的VGG-TSwinformer实现了更好的诊断效率。

对于MCI的进展预测任务,使用纵向生物标志物可以避免横断面研究受个体差异和短期观察时间的缺点,从而导致更好的诊断效率。然而,由于深度学习在处理纵向医学图像数据方面的固有劣势,目前很少有深度学习在MCI的纵向分析方面的应用。令人鼓舞的是,Transformer在计算机视觉领域的成功可能会推动深度学习在短期纵向疾病研究中的应用。尽管在MCI预测任务中表现出竞争性的性能,但本研究仍存在以下局限性。首先,本研究将MRI切片作为sMRI图像的局部信息,没有挖掘切片内部的二维局部特征。其次,本工作研究了在轴位、冠状位和矢状位切片上的模型性能,但没有采用有效的特征融合方法来融合这三个平面特征,这将导致sMRI空间信息的丢失。第三,由于提出的VGG-TSwinformer仅使用sMRI作为唯一的生物标志物,并没有充分利用可用的横断面生物标志物,导致VGG-TSwinformer模型可能无法达到使用多模态生物标志物相比的相应诊断效率,并且将多模态横断面和纵向生物标志物相结合也是我们未来研究的目标。

  • 21
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值