VGG-TSwinformer: Transformer-based deep learning model for early Alzheimer’s disease prediction 论文笔记

YYY7

已于 2024-05-04 16:26:40 修改

阅读量1k

点赞数 21

分类专栏：论文笔记文章标签：人工智能算法深度学习笔记 python

于 2024-05-04 16:25:26 首次发布

本文链接：https://blog.csdn.net/qq_41762023/article/details/138444250

版权

论文笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

VGG-TSwinformer: Transformer-based deep learning model for early Alzheimer’s disease prediction

本笔记主要是原文的简要翻译。

摘要

背景和目标：轻度认知障碍（MCI）是正常衰老和阿尔茨海默病（AD）之间的过渡状态，准确预测MCI的进展趋势对于早期预防和治疗AD至关重要。作为诊断AD的最重要的生物标志物之一，脑结构磁共振成像（sMRI）已经应用于各种深度学习模型中。然而，由于深度学习在处理纵向医学图像数据方面的固有劣势，深度学习在MCI纵向分析方面的应用很少，现有的大多数深度学习算法用于MCI进展预测都依赖于在单个时间点收集的sMRI图像的分析，忽略了该疾病的渐进性质。方法：在这项工作中，我们提出了一种基于卷积神经网络（CNN）和Transformer的VGG-TSwinformer模型，用于MCI的短期纵向研究。在这个模型中，基于VGG-16的CNN用于提取纵向sMRI图像的低级空间特征，并将这些低级特征映射到高级特征表示，滑动窗口注意力用于对空间上相邻的特征表示进行精细融合，并通过不同尺寸的注意力窗口的叠加逐渐融合远距离的空间特征表示，时间注意力用于衡量由于疾病进展而导致的特征表示的演变。结果：我们在ADNI数据集上验证了我们的模型。对于sMCI vs pMCI的分类任务，准确率、敏感度、特异度和AUC分别达到了77.2%、79.97%、71.59%和0.8153。与其他也应用于sMRI的横断面研究相比，所提出的模型在准确率、敏感度和AUC方面取得了更好的结果。结论：所提出的VGG-TSwinformer是用于MCI短期纵向研究的深度学习模型，它可以从纵向sMRI图像中构建脑萎缩进展模型，并提高了与仅使用横断面sMRI图像的算法相比的诊断效率。

在这里插入图片描述

介绍

人口老龄化日益严重，引发了各种老年疾病，其中阿尔茨海默病（AD）是最棘手的疾病之一。根据2022年阿尔茨海默病协会报告，目前有650万名65岁及以上的美国人患有AD。如果没有预防、减缓或治疗AD的医学突破，到2060年这一数字可能会增长到1380万人。AD是一种退行性且不可逆转的脑部疾病，随着疾病的进展，越来越多的脑神经元停止功能、失去连接，甚至死亡。此外，常见的AD相关解剖脑结构变异包括脑室扩大、海马形态萎缩、皮质厚度改变以及其他含有白质和灰质脑组织以及脑脊液的脑区的形态变化。

轻度认知障碍（MCI）是正常衰老和AD之间的过渡状态，大约有44%的MCI患者会在3年内转变为AD。如图1所示，对于潜在的AD患者，当他们从认知正常（CN）转变为MCI时，将迅速进展为AD。DSM-5标准将在接下来的3年内转变为AD的MCI患者分为渐进性MCI（pMCI）组，将在接下来的3年内未转变为AD的MCI患者分为稳定性MCI（sMCI）组。MCI患者经历认知下降，其大脑结构逐渐萎缩。Jack等人测量了CN、MCI和AD患者的海马体和内嗅皮层、整个大脑和脑室体积，并计算了1-5年内的脑萎缩率，结果显示具有转变为AD趋势的MCI的年度萎缩率最快，其次是稳定MCI，认知正常者最慢。虽然MCI患者在语言、记忆、思维能力等方面存在缺陷，但其症状不像AD那样严重，因此MCI常常被误认为是衰老的表现而不受重视，然而，当MCI完全转变为AD时，到目前为止尚无有效的药物和治疗方法可以治愈AD。区分pMCI和sMCI在AD的早期诊断中起着重要作用，可以帮助临床医生对疾病的进展采取有效的干预措施。然而，与AD和CN的分类相比，pMCI和sMCI的分类更具挑战性，因为pMCI和sMCI患者之间的认知和脑结构之间存在更微妙的差异。

对于AD的诊断有各种方法，包括脑脊液穿刺、脑电图、遗传测试、神经心理学检查、神经影像学检查等。其中，结构性磁共振成像（sMRI）可以直观反映患者的病理变化，并且由于其无创优势，更容易被患者和家属接受。此外，sMRI可以检测患有AD的患者的脑萎缩时间过程，可能作为患有可疑AD的人的病理变化的替代标志物。最近，随着计算机辅助诊断的兴起，已经开发了许多算法来基于sMRI图像预测MCI。基本上，这些算法使用在单个时间点获取的sMRI图像来预测诊断标签，忽略了该疾病的渐进性质。考虑到AD的潜伏期可能长达几十年，从单个横截面简单解释脑组织形态学变化无法清楚地揭示疾病的演变，而在多个时间点的随访观察可能具有临床意义。然而，由于深度学习在处理纵向医学图像数据方面的固有劣势，深度学习在MCI的纵向分析方面应用很少。

本文提出了一种名为VGG-TSwinformer的深度学习模型，基于纵向sMRI图像来建立MCI患者大脑结构随时间变化的模式。此外，将2年的固定时间间隔引入纵向sMRI图像，有助于建立疾病进展的时间轴。换句话说，本研究考虑了两个时间点上MCI患者的整个大脑形态，并通过VGG-TSwinformer模型对这两个时间点上的整个大脑形态进行建模，以获取患者整个大脑形态的变化模式。通过固定这两个时间点之间的间隔，引入疾病的演变速率，从而把握MCI患者的未来临床状况。我们旨在提出一个完全自动化的用于MCI的短期纵向研究的工作流程，包括MRI预处理、MRI特征提取、MRI特征融合和分类，可以自动识别脑部变化，无需专家手动标注，从而获得良好的泛化能力。我们的贡献如下：

在本研究中，提出了一种基于纵向sMRI图像的深度学习模型VGG-TSwinformer，用于建立MCI患者脑萎缩进展模型。此外，我们引入了2年的固定时间间隔到纵向sMRI图像中，有助于建立疾病进展的时间轴。
提出了一种新的滑动窗口注意力机制，用于对sMRI图像相邻空间特征进行精细融合，并通过不同尺寸的注意力窗口的叠加逐渐融合长距离空间特征。
使用时间注意力来建立由疾病进展导致的脑结构变化模式，在纵向sMRI图像中得到反映。

本文的剩余部分组织如下：第II节总结了一些相关工作并简要介绍了VGG-TSwinformer模型。第III节详细介绍了VGG-TSwinformer模型的架构。第IV节介绍了实验结果和详细信息。最后，我们在第V节总结了我们的工作并对未来的工作进行了展望。

方法

VGG16编码网络

大脑的结构相对复杂，大致分为6个部分，每个部分包含多个大脑区域。VGG-16在AlexNet的基础上减小了卷积核的大小，并增加了卷积核的数量，因此更适合于大脑图像处理，并可以提取更抽象的特征。

本文使用基于VGG-16的CNN来提取每个样本切片序列T1和切片序列T2中切片的空间特征，并将其映射到高级特征表示token。基于VGG-16的CNN架构如图2所示。VGG-16基于CNN使用了VGG-16的13个卷积层和5个池化层，并在头部添加了一个卷积层进行切片的通道扩展，尾部添加了一个卷积层将特征图映射到token上。切片在扩展维度后变为112 × 112 × 3。经过VGG-16的一系列卷积、激活、池化操作后，输出特征图的大小为3 × 3 × 512。最后，一个卷积核大小为3 × 3，输入通道数为512，输出通道数为256的卷积层执行从特征图到token的映射。特征图I到特征图O的标准卷积计算过程公式如下：

$\begin{equation} O_j = \text{ReLU} \left( \sum_{i \in M_j} I_i \ast k_{ij} + b_j \right) \end{equation}$
其中， $O_j$ 是特征图O的第j个通道， $I_i$ 是特征图I的第i个通道， $M_j$ 是特征图I中的通道集合， $k_{ij}$ 表示与 $I_i$ 和 $O_j$ 对应的卷积核， $b_j$ 表示卷积后的 $O_j$ 的偏置偏移， $\ast$ 表示卷积计算。ReLU是一种激活函数，将所有负输入变为0，而正值保持不变。对于输入t，ReLU表示为

$\begin{equation} \text{ReLU}(t) = \begin{cases} t, & t > 0 \\ 0, & t \leq 0 \end{cases} \end{equation}$
假设通过对特征图O进行最大池化得到特征图P，特征图P可以表示为

$\begin{equation} P_j(h, w) = \omega_j \cdot \max_{k_h, k_w} O_j(hs + k_h, ws + k_w) + b_j \end{equation}$
其中， $P_j$ 、 $O_j$ 分别是特征图P和特征图O的第j个通道， $h$ 、 $w$ 分别是 $P_j$ 的行数和列数， $s$ 是池化窗口的步长， $K$ 是池化窗口的大小， $\omega_j$ 和 $b_j$ 表示权重系数和偏置偏移参数，不同的输入特征图对应不同的权重系数和偏置偏移参数。VGG-16中的卷积操作提取了输入图像的最低级特征。每个卷积核提取的特征都不同，依次提取的卷积层组提取的局部特征数量为64、128、256和512。最后一个卷积层从512个特征中筛选出256个作为该切片的特征表示。

对切片序列T1和切片序列T2中的N个切片分别进行特征图到token的卷积映射，得到两个token序列：token序列T1和token序列T2，最终每个样本共有2N个token。我们使用正弦位置编码来嵌入token序列T1和token序列T2中同一位置的一对token的时间位置，并在token序列T1和token序列T2中嵌入序列内的空间位置。经过空间和时间位置嵌入后，2N个token被送入第一个时间注意力块。

Transformer

在自然语言处理（NLP）中，Transformer由两部分组成：编码器和解码器。编码器将输入（语言序列）映射到隐藏层，解码器将隐藏层映射到自然语言序列。由于在图像处理中不需要重新映射，我们遵循ViT [25]，仅使用Transformer中的编码器部分（以下简称为Transformer）。

自注意力（SA）

自注意力是一种特征融合方法，用于捕捉特征之间的内部相关性。自注意力降低了不重要信息的权重，同时将权重倾向于有用的信息。SA的计算过程如下：首先，输入token被线性映射生成一组查询矩阵Q、关键矩阵K和值矩阵V，然后通过Q和K计算权重系数，最后使用得到的权重系数计算K中向量的加权和，即token之间的加权融合。如图3所示，SA的计算公式为
$\begin{equation} \text{Attention}(Q, K,V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \end{equation}$
其中， $d_k$ 是关键向量K的维度， $\sqrt{d_k}$ 提供适当的归一化以使梯度更稳定。

在这里插入图片描述

多头自注意力（MSA）

多头自注意力意味着输入token生成h组（称为h头）的查询矩阵、关键矩阵和值矩阵，并在每组查询矩阵、关键矩阵和值矩阵上执行SA操作。最后，连接h头的输出。如图4所示，MSA可以表示为
$\begin{equation} \text{head}_i = \text{Attention}(QW_i^Q, KW_i^K,VW_i^V) \end{equation}$

$\begin{equation} \text{MSA}(Q, K,V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O \end{equation}$

其中，投影矩阵 $W_i^Q$ 、 $W_i^K$ 、 $W_i^V$ 和 $W^O$ 是可训练参数矩阵， $h$ 是MSA头的数量。

结合上述内容，一个完整的Transformer块可以表示为
$\begin{equation} t(x) = \text{MSA}(\text{LN}(x)) + x \end{equation}$

$\begin{equation} \text{Transformer}(x) = \text{MLP}(\text{LN}(t(x))) + t(x) \end{equation}$

其中， $x$ 是输入的token，LN是层归一化 [34]，应用于MSA和MLP之前。MLP由两个全连接层和残差连接组成，并在第一个全连接层中使用GELU [35]激活函数。

在这里插入图片描述

VGG-TSwinformer

本文提出的VGG-TSwinformer模型的架构如图5所示。基于VGG-16的CNN将每个切片映射到高级特征表示token。最后，表示切片系列T1和切片系列T2的token序列T1和token序列T2分别被送入第一个时间注意力块。在VGG-TSwinformer中，token序列T1和token序列T2各有10个注意力块，其中token序列T1和token序列T2各有5个空间注意力块，并共享5个时间注意力块。为了更好地整合局部特征并尝试避免划分相同的冗余token，token序列T1和token序列T2的前四个空间注意力块交替设计为右滑动窗口（RSwin）注意力块和左滑动窗口（LSwin）注意力块。

对于MCI的短期纵向研究，我们需要关注随时间变化的大脑形态的变化，这些变化微妙且不容易检测。因此，如图5所示，在时间注意力块中，我们对相应位置的token执行MSA，即我们对T1 sMRI图像和T2 sMRI图像相应位置的轴向切片进行特征融合。此外，我们提出的滑动窗口注意力机制使得token序列T1和token序列T2的相应窗口范围内的token间接进行特征融合，从而使T1 sMRI图像和T2 sMRI图像的特征融合从相应的2D切片扩展到局部3D空间。一般来说，空间距离较近的特征之间的相关性往往比空间距离较远的特征之间的相关性更强。对于小型sMRI数据集，提出的滑动窗口注意力和时间注意力可以使模型更容易在有限的迭代训练中注意到局部特征的变化，从而将这些变化信息用于预测。

假设第 l 个块是时间注意力块，第 l + 1 个块是 RSwin（或 LSwin）注意力块，并且第 l - 1 个块的输出是 $X_{l-1}^{T1}$ 和$ X_{l-1}^{T2}$。则可以表示为
$\begin{equation} X_{l-1}^{T1} = (X_{l-1}^{(T1,1)}; \ldots ; X_{l-1}^{(T1,N)}) \end{equation}$

$\begin{equation} X_{l-1}^{T2} = (X_{l-1}^{(T2,1)}; \ldots ; X_{l-1}^{(T2,N)}) \end{equation}$

其中， $X_{l-1}^{T1}$ ， $X_{l-1}^{T2}$ 分别是第l - 1个块之后的token序列T1和token序列T2， $X_{l-1}^{(T1,i)}$ ， $X_{l-1}^{(T2,i)}$ 是 $X_{l-1}^{T1}$ 和 $X_{l-1}^{T2}$ 的第i个token。

第l个时间注意力块是在token序列T1和token序列T2的相应位置的两个token之间执行MSA。假设第l个块的输出是 $X_l^{T1}$ 和 $X_l^{T2}$ ， $X_l^{T1}$ 和 $X_l^{T2}$ 可以表示为
$\begin{equation} X_l^{T1} = (X_l^{(T1,1)}; \ldots ; X_l^{(T1,N)}) \end{equation}$

$\begin{equation} X_l^{T2} = (X_l^{(T2,1)}; \ldots ; X_l^{(T2,N)}) \end{equation}$

和
$(X_l^{(T1,i)}, X_l^{(T2,i)}) = \text{MSA}(X_{l-1}^{(T1,i)}; X_{l-1}^{(T2,i)}), i = 1, \ldots, N$
其中， $X_l^{T1}$ ， $X_l^{T2}$ 分别是第l个时间注意力块之后的token序列T1和token序列T2， $X_l^{(T1,i)}$ ， $X_l^{(T2,i)}$ 分别是 $X_l^{T1}$ 和 $X_l^{T2}$ 的第i个token。

然后，在 $X_l^{T1}$ 和 $X_l^{T2}$ 上分别执行第l + 1个RSwin（或LSwin）注意力块。如图5所示，作为示范，在RSwin块中，窗口的划分是从左到右的。我们将窗口大小设置为3，窗口滑动步幅设置为1。步幅确定了两个窗口之间前后的重叠token的数量。我们将重叠token的平均值作为该位置的该块的输出，从而保留相邻窗口的边界信息。在图5中的LSwin块中，窗口的划分是从右到左的。我们将窗口大小设置为3，窗口滑动步幅设置为2。可以看出，在完整窗口划分后仍然存在冗余token，并且窗口继续向左滑动以生成一个新的不完整窗口，并在窗口内执行MSA。

假设 $X_{l+1}^{T1}$ 和 $X_{l+1}^{T2}$ 是由 $X_l^{T1}$ 和 $X_l^{T2}$ 经过RSwin（或LSwin）注意力块得到的。算法1和算法2分别展示了 $X_{l+1}^{T2}$ 的RSwin和LSwin块的计算过程，其中Wi表示第i个注意力窗口的输出，w是注意力窗口的大小，N是包含在token序列T1或token序列T2中的token数，num是本RSwin（或LSwin）注意力块中完整窗口的总数，s是窗口滑动的步幅，s < w，ceil()是向上取整函数，M ∈ R(num+1)×N×C用于存储每个窗口的计算结果。对于 $X_{l+1}^{T1}$ ，其计算过程与 $X_{l+1}^{(T2)}$ 的计算过程相同。

如图5所示，在token序列T2的最后一个空间注意力块中，对token序列T2中的所有token执行MSA。对于token序列T1，其计算过程与token序列T2的计算过程相同。表1显示了token序列T1和token序列T2的四个滑动窗口注意力块的配置详情。token序列T1和token序列T2最后一个空间注意力块的输出token被平均并送入分类器以获得最终预测。

结果

在这里插入图片描述

数据集

本研究采用阿尔茨海默病神经影像学倡议（ADNI）[36]数据库（http://adni.loni.usc.edu）来验证所提出模型的性能。ADNI成立于2003年，由首席研究员Michael W. Weiner博士领导，是一个用于阿尔茨海默病的临床和影像数据库，对公众开放。ADNI正在测试来自世界各地59个地点的5000多名受试者。其主要目标是通过磁共振成像（MRI）、正电子发射断层扫描（PET）和其他生物标志物，结合临床和神经心理评估，诊断轻度认知障碍和早期阿尔茨海默病。

由于本研究采用的sMRI图像来自ADNI 1/GO/2/3阶段，为了避免脑结构以外的因素对模型的影响，我们的研究基于预处理后的MRI。首先，使用FMRIB软件库（FSL）将sMRI图像归一化到MNI152标准空间。归一化后，所有图像的尺寸为182 × 218 × 182（X × Y × Z），每个体素的空间分辨率为1 × 1 × 1mm³，然后对空间标准化的sMRI图像进行颅骨切除，最后使用高级归一化工具（ANTs）进行统一的偏置场校正。图像预处理流程如图6所示。预处理后的sMRI图像根据轴向切片。在选择每个MRI图像的轴向切片时，我们从垂直轴向平面方向的中间向两端切片，即从第91个轴向切片开始切割40个轴向切片到每端，总共80个切片。最后，每个样本包含两个3D sMRI图像：sMRI图像T1和sMRI图像T2，对应于切片系列T1和切片系列T2在切片后。切片系列T1和切片系列T2具有相同数量的切片，每个切片的空间尺寸为182 × 218 × 1。

对于单个样本，如果患者在T2时被诊断为MCI并且在接下来的3年内没有进展到AD，我们将样本划分为稳定MCI（sMCI）组。如果患者在T2时被诊断为MCI，并且在随后的3年内出现AD转化，将样本划分为进展性MCI（pMCI）组。由于一个患者可能在多个时间点获取到sMRI图像，每个患者可能对应多个样本。在条件筛选后，从275名受试者中收集到823个样本。受试者的人口统计数据如表2所示，每个样本的T2时刻被视为该样本的收集时间。

设置

823个样本被划分为三个子集：训练集、验证集和测试集，其中65%用于训练，20%用于验证，15%用于测试。此外，我们必须确保不同子集中的样本不能来自同一受试者，换句话说，同一受试者的多个样本只能存在于训练、验证和测试子集中的一个。这非常重要，因为属于同一受试者的样本在图像结构上具有很高的相似性，这会导致模型过拟合。此外，为了增加数据集，采用了镜像翻转和随机旋转操作。对于每个样本中的两个切片序列，由于GPU的限制，我们在每个切片序列中设置了切片数量N = 80，令token维度C = 256。该模型以学习率1e−5和动量9e−5进行了100个epochs的训练。为了避免过拟合，我们选择了SGD [37]作为优化器，权重衰减为0.1。我们使用交叉熵 [38]作为损失函数。为了避免随机性，本研究进行了5次实验，每次实验随机选择不同的训练、验证和测试子集。

实验结果

对比实验

图7显示了训练期间验证数据集的平均准确率和标准差。可以看出，自第60个epoch以来，模型验证准确率已经收敛。在本研究中，与[18]中提出的“基础3D模型”、“3D循环视觉注意模型”和“注意力变换模型”进行了比较，并与提出的VGG-TSwinformer进行了比较。由于[18]中未采用时间注意力，因此当将这三个模型应用于本研究的数据集时，仅使用每个样本中的切片系列T2。对于每个模型进行了五次随机实验，并且随机种子与VGG-TSwinformer的相同，表3显示了三个对比模型和VGG-TSwinformer的测试准确率、灵敏度、特异度和AUC的平均值，图8给出了三个对比模型和VGG-TSwinformer的平均ROC曲线。此外，我们直接在表3中比较了最近基于sMRI的研究[14–17,20]在pMCI和sMCI分类任务中的表现。**为了消除由于不同数据集导致的算法性能偏差，我们仅比较了应用于ADNI数据集上的算法。从表3中实验结果的比较可以看出，所提出的模型在准确率、灵敏度和AUC方面优于基于横断面研究的深度学习算法，分别达到了77.2%、79.97%和0.8153。**值得一提的是，该方法的AUC和灵敏度明显优于其他方法，分别比第二名高出2.51和2.27个百分点。图9显示了训练好的VGG-TSwinformer模型对多个样本中的sMRI图像切片的注意力区域，我们通过在VGG-16的第二个池化层后的最后一个卷积层中应用Grad-CAM [39]来生成它。对热力图的分析显示，受影响最常见的脑部区域位于颞叶周围，包括杏仁核和海马体，这表明杏仁核和海马体的变化在MCI的进展中起着重要作用。其次常见的区域是角回、楔前叶和中颞回等，但它们仅存在于一些患者中，并且比海马体更少见。此外，在一些被正确分类样本的注意力热力图中，上述常见的区分区域的迹象并不明显，这表明除了这些常见区分区域外，一些脑功能区域还具有辅助区分pMCI和sMCI的功能。值得注意的是，热力图中突出显示区域的形成不仅是由于T1和T2期间脑结构的纵向变化，还与T1和T2时刻脑结构的空间特征有关。VGG-TSwinformer利用这两个特征在MCI进展预测任务上取得了竞争性的性能，但没有加以区分。通过使用脑形态的纵向变化来视觉显示MRI的进展，有助于临床医生在一定时间内掌握MCI患者局部脑部的变化。这可以作为另一个研究方向进行探索。

在这里插入图片描述

消融实验

为了证明我们的模型对变化中的脑结构更敏感，我们进行了对照实验。我们保持了模型架构不变，只是在每个样本中将切片系列T1中的所有切片替换为切片系列T2中的切片，也就是说，每个样本包含两个完全相同的切片系列。我们进行了5个对照实验，并且每个对照实验的数据集划分与原始实验一致。所获得的平均准确率、灵敏度、特异度和AUC如表4所示。

可以看出，当样本不再包含MCI患者脑结构变化的信息时，模型的性能与其他算法相比并不具竞争力，这表明VGG-TSwinformer可以利用患者脑结构变化的信息来提高性能。此外，原始实验的灵敏度高于对照实验，表明模型对变化中的脑结构更为敏感。然而，原始实验的特异度低于对照实验。较高的灵敏度意味着漏诊率较低，实际上，在绝大多数临床诊断中，漏诊比误诊更不可接受。

为了调查使用预训练CNN是否会提高模型性能，我们在VGG-TSwinformer中使用了加载了预训练权重的VGG-16，并将其与从头开始训练的模型进行了比较。如表5所示，从头开始训练的模型的准确率、特异度和AUC优于预训练模型，证明使用预训练的VGG并不会提高模型的预测性能。

MRI有三个平面视图：轴位（将身体分为上下两半）、冠状位（垂直）和矢状位（身体中线）。我们比较了使用不同平面切片的模型性能。对于冠状面，从第109个冠状切片到每个端点取40个切片，在每个sMRI图像中总共获取80个切片；对于矢状面，从第91个矢状切片到每个端点取40个切片，在每个sMRI图像中总共获取80个切片。从表6中可以看出，模型的效果会根据平面选择而变化。总体而言，当使用轴位切片时，模型具有最佳的综合性能，但灵敏度和特异度低于冠状位和矢状位。因此，仅使用单个平面切片无法充分提取3D MRI的特征，结合三个平面切片可能会达到更好的性能。

在这里插入图片描述

结论

本文提出了一种新颖的深度学习模型VGG-TSwinformer，用于MCI的纵向研究。在这个模型中，基于VGG-16的CNN被用来从sMRI图像切片中提取特征，并将它们编码为高级特征表示的标记。采用了时间注意力机制来链接纵向的sMRI图像，以获取MCI患者脑结构变化的信息。滑动窗口注意力机制可以充分整合sMRI图像的局部空间特征，并通过不同大小的注意力窗口的叠加逐渐整合远程空间特征。我们在ADNI数据库上验证了我们模型的性能，实验结果表明，与基于sMRI的横断面研究相比，提出的VGG-TSwinformer实现了更好的诊断效率。

对于MCI的进展预测任务，使用纵向生物标志物可以避免横断面研究受个体差异和短期观察时间的缺点，从而导致更好的诊断效率。然而，由于深度学习在处理纵向医学图像数据方面的固有劣势，目前很少有深度学习在MCI的纵向分析方面的应用。令人鼓舞的是，Transformer在计算机视觉领域的成功可能会推动深度学习在短期纵向疾病研究中的应用。尽管在MCI预测任务中表现出竞争性的性能，但本研究仍存在以下局限性。首先，本研究将MRI切片作为sMRI图像的局部信息，没有挖掘切片内部的二维局部特征。其次，本工作研究了在轴位、冠状位和矢状位切片上的模型性能，但没有采用有效的特征融合方法来融合这三个平面特征，这将导致sMRI空间信息的丢失。第三，由于提出的VGG-TSwinformer仅使用sMRI作为唯一的生物标志物，并没有充分利用可用的横断面生物标志物，导致VGG-TSwinformer模型可能无法达到使用多模态生物标志物相比的相应诊断效率，并且将多模态横断面和纵向生物标志物相结合也是我们未来研究的目标。