Radiology：皮层厚度预测轻度认知障碍转化为帕金森痴呆症

本文链接：https://blog.csdn.net/cc1609130201/article/details/120531117

虽然帕金森病(Parkinson disease, PD)传统上被认为是一种运动障碍，但现在有几种非运动症状被认为是PD的组成部分。认知功能减退是帕金森病最常见的非运动症状之一。80%以上的帕金森病患者会发生帕金森病痴呆症(PD dementia, PDD)，他们的帕金森患病时间超过20年。轻度认知障碍(mild cognitive impairment, MCI)不会像PDD那样影响日常功能，即使在诊断为PD时，也在19%~42%的患者中普遍存在。伴有MCI的PD通常被认为是PDD的危险因素。然而，就认知特征和认知衰退而言，存在很大的变异性，一些患者发展为PDD，另一些患者保持稳定，甚至恢复正常认知。因此，当医生根据预测的风险制定治疗策略时，有必要根据PDD发展的风险对PD和MCI患者进行分层。高危患者可能会接受更积极的治疗，并可能从疾病改良治疗中受益。对预测风险的了解也可以让我们深入了解帕金森病认知能力下降的病理生理学基础。纵向研究表明，后部皮层受累增加了PDD的风险，因为帕金森病患者在语义流畅性和视觉空间功能方面的表现变差，后部皮层新陈代谢下降，海马和大脑后部皮层萎缩更容易发生PDD。然而，其他研究表明，额叶皮层认知能力下降和萎缩与PDD有关(9，10)。尽管这些结果相互矛盾，但我们可以假设，皮层受累模式可能是预测PDD的有前途的影像学标记物。然而，过去的研究结果是在组水平上进行比较的，因此在预测个体转化为PDD的风险方面存在局限性。最近，机器学习已越来越多地用于医学成像中的个体水平分类，特别是脑肿瘤和神经退行性变研究。因此，作者旨在开发一个基于机器学习的预测模型，仅使用MRI的皮层厚度并结合临床信息，以评估PD和MCI患者在个体水平上转化为痴呆的风险。此外，还使用外部测试集研究了预测模型的性能。本文发表在Radiology杂志。

2.材料和方法

患者概况发现队列。患者是从一家三级医院的门诊数据库中挑选出来的。这项研究包括在2008年9月至2016年11月进行基线研究期间连续接受MRI和神经心理学检查的PD和MCI患者，并且他们进行了至少1年的神经心理测试随访。PD和MCI患者在随访期间根据痴呆的发展情况分为PDD转化型和非转化型。认知功能在五个认知领域进行评估：注意力、执行功能、记忆、语言及相关功能、视觉空间功能。单个子测试的z分数和每个认知领域的综合分数，通过平均子测试的z分数计算得出，被用作训练机器学习模型的特征。排除标准为不完整的临床数据或影像处理过程中的错误。发现队列中117名患者中有109名被纳入先前的研究。先前的研究在组水平分析中将扩张的血管周围空间作为认知能力下降的独立预测因子进行评估，而这项研究评估了皮层厚度是否有助于预测个体水平的PDD转化。使用caret R工具包中的createDataPartition功能将入选的患者随机分配到训练集或测试集中，比例为3：1。特征选择和模型性能受患者如何划分为训练集和测试集的影响。因此，为了避免数据分割变异的影响，以3：1的比例随机生成了10000个训练和测试集。外部测试集。2015年4月至2018年11月期间，使用相同的纳入和排除标准从另一家三级医院登记外部测试集的患者。除了评估抑郁症状外，外部测试集采用了相同的临床评估流程。在外部测试集中，使用老年抑郁症量表及其简表评估抑郁症状，而在发现队列中使用贝克抑郁自评量表。

MRI采集发现队列。所有的三维T1加权涡轮场回波序列成像数据均使用具有32通道头部线圈的3.0-T扫描仪获得。成像参数为：视野224×224×220 mm；体素大小1×1×1 mm3；重复时间毫秒/回波时间毫秒/反转时间9.8/4.6/1000ms；拍摄间隔1547ms；翻转角8°；总采集时间3min53s。外部测试。所有经T1加权磁化制备的三维快速梯度回波成像数据均使用带有12通道磁头线圈的3.0-T扫描仪获得。在矢状面进行成像，参数为：视野256×256×176 mm；体素大小1×1×1mm3；TR/TE/反转时间：1780/2.2/900；翻转角9°；总采集时间5min22s。

皮层厚度分析

自动CIVET流程 (http://mcin.ca/civet/)应用于T1加权图像以测量每个患者的皮层厚度，如前所述。大脑皮层自动分割成78个区域，并由自动解剖标记模板定义区域边界。然后，对每个患者的每个区域内顶点的皮层厚度进行平均，并将平均区域皮层厚度用作特征。

统计分析

所有统计分析均使用R软件（3.5.1）进行。R代码可在Github (https:// http://github.com/cmc-rcodes/pdd-converter)上获得。临床特征和区域皮层厚度的比较。在正态性检验后使用独立t检验或Mann-Whitney U检验比较两个数据集之间以及每个数据集中的PDD转化者和非转化者之间的连续临床变量和皮层厚度。用卡方检验比较分类临床变量。还根据PDD转化者和非转化者的每个数据集比较了皮层厚度。双尾P＜0.05表示统计学上的显着差异。当比较皮层厚度时，使用FDR校正多重比较。机器学习模型的特征选择和训练。机器学习模型在发现队列中进行训练，以预测PDD在特征、机器学习方法和过采样方法的各种组合中的后期发展，包括有无特征选择。作为潜在特征，作者使用了16个临床变量、14个神经心理学测试的z分数、每个认知领域的5个综合评分和78个区域皮层厚度变量，其组合如下：（a）临床变量，包括神经心理学测试的z分数； (b)临床变量，包括五个认知领域的综合评分； (c)皮层厚度和临床变量，包括神经心理学测试的z分数； (d)皮层厚度和临床变量，包括五个认知领域的综合评分； (e)仅皮层厚度变量。特征选择是使用最小绝对收缩和选择算子（R软件中的glmnet包，R统计计算基础）回归进行的，具有10倍交叉验证，并在随机生成的训练集中重复10000次。选择5000次或更多的特征用于训练机器学习模型。作者使用了五种机器学习方法——随机森林和支持向量机具有四个内核（线性、多项式、径向基函数和sigmoid）——在训练集中进行10倍交叉验证。为了补偿患者数量的不平衡，使用了两种过采样方法——R软件中的随机过采样示例或随机过采样示例包和合成少数过采样技术。对于最小绝对收缩、选择算子回归和支持向量机模型，每个变量都归一化为零均值和单位方差，但对于随机森林模型不这样做。所有的手术都是在有或没有特征选择的情况下进行的。因此，总共训练了100个模型组合。模型性能和外部测试。在发现队列中，每个经过训练的机器学习模型为测试集中的每个患者的每一次迭代产生PDD后期发展的预测概率。在10000个重采样的训练和测试集中重建并重新测试了预测概率。预测的概率用于计算每个模型的接收器工作特性曲线下的面积(AUCs)。由于一些模型的AUC具有偏态分布，因此计算了10000个AUC的中位数和上下2.5个百分位值，作为每个模型的性能衡量标准。按模型组成部分分组的模型的总体性能用相应模型的中位数AUC的范围(以下称为AUC范围)来表示。作者根据特征组合比较每次迭代中成对模型之间的AUC，并统计模型表现出不同性能的迭代次数。为了确定哪些特征对PDD转化的预测贡献更大，在10000个重采样数据集中分别从随机森林和支持向量机线性核模型中提取了所选特征的平均重要性和权重。为了评估模型在不同条件下的通用性和可移植性，将发现队列中训练的每个模型应用于外部测试集。对于每个模型的10000个AUC和按模型组成部分分组的模型的AUC范围，性能也表现为具有较低和较高2.5个百分位值的中位数。

3.结果

临床和皮层厚度数据

在发现队列中，151名符合条件的PD和MCI患者中有34名因临床数据不完整而被排除在外，剩下117名患者。其中42名患者被归类为PDD转化型（平均年龄71±6岁；22名女性）、75名被归类为非转化型（平均年龄68±6岁；40名女性）。

图1.患者纳入的流程图。在外部测试集中，40名符合条件的PD和MCI患者中有15名因临床数据不完整而被排除，一名因图像处理错误而被排除，剩下24名患者（图1）。其中4名患者被归类为PDD转化型（平均年龄74±10岁；4名男性）和20名被归类为非转化型（平均年龄67±7；11名女性）。表1总结了发现队列和外部数据集的人口统计学和临床数据。表2显示了为训练模型选择的临床和皮层厚度特征。78个区域中，PDD非转化型和转化型的26个区域和4个区域的皮层厚度分别在发现队列和外部测试集之间存在差异（所有情况下P＜0.05）。

表1.病人的人口学信息（除注明的情况外，数据均为患者数量，并在括号中加上百分比）。CCSIT=跨文化嗅觉鉴定测试，FU=随访，LEDD=左旋多巴等效日剂量，MMSE=简易精神状态检查，NP=神经心理学，PD=帕金森病，PDD=PD痴呆；UPDRS-III=统一帕金森病评定量表第III部分。*P值根据需要用独立的t检验、Mann-Whitney U检验或卡方检验计算。†数据的平均值为6个标准差。‡数据为中位数，四分位数范围在圆括号内。

表2.基于病人筛选出的临床特征和皮层厚度特征（除特别注明外，数据为平均值6个标准差或中位数，四分位数范围在括号内）。ACG=前扣带回和扣带旁回，ANG=角回，CAL=距骨裂及其周围皮层，CCSIT=跨文化嗅觉识别测试，LEDD=左旋多巴等效日剂量，NP=神经心理学，OLF=嗅皮层，ORBmid=额中回，眶部，PDD=帕金森病痴呆，PHG=海马旁回，RCFT=Rey复杂图形测试，REC=脑直回。*根据需要用独立t检验、Mann-Whitney U检验或卡方检验计算P值。†发现队列中的LEDD范围为0-1171(PDD非转化性)和0-1470(PDD转化型)。‡指经过78次比较的FDR调整后的P值。

特征选取

在临床和神经心理学特征中选择了：教育年数、左旋多巴当量日剂量、代表视觉空间、语言和视觉记忆、额叶执行、注意力和嗅觉功能的特征。在皮层厚度特征中选择了：角回、嗅皮层、回直肌、眶额叶皮层、前扣带回、海马旁回、初级视觉皮层和枕回的平均厚度(图2、图3)。在支持向量机线性核模型中，除了三个临床或皮层厚度特征外，所有其他特征都显示为负权重。因此，数值较低的患者有较高的PDD转化率。相反，左旋多巴等效日剂量和右侧扣带前皮层和左侧海马旁回的皮层厚度显示正值，较高的值表明PDD转化的可能性较高。

图2.条形图显示临床和皮层厚度特征，根据五种特征组合选择用于PDD转化型和非转化型的分类。ACG.R=右前扣带回和扣带旁回，ANG.L=左角回，CAL.R=右距状裂及其周围皮层，CCSIT=跨文化嗅觉识别测试，LEDD=左旋多巴等效日剂量，NP=神经心理学，OLF.L=左嗅皮层，OLF.R=右嗅皮层，ORBmid.L=左额中回，眶部，PHG.L=左海马旁回，RCFT=Rey复杂图形测试，REC.R=右直回，SOG.R=右枕上回，SVLT=首尔言语学习测验。

图3.选择用于PDD转化型和非转化型的皮层厚度特征的表面渲染图像。ACG.R=右前扣带回和扣带旁回，ANG.L=左角回，CAL.R=右距骨裂及其周围皮层，L=左，OLF.L=左嗅皮层，OLF.R=右嗅皮层，ORBmid.L=左额中回，眶部，PHG.L=左海马旁回，R=右，REC.R=右枕上回，SOG.R=右枕上回。

模型性能和外部验证

图4总结了发现队列和外部测试集中的模型性能。在发现队列中，经过特征选择后训练的模型(AUC范围为0.70-0.88)始终表现出比没有进行特征选择的模型(AUC范围为0.62-0.79)更好的性能。因此，作者只使用特征选择后训练的模型来比较发现队列中的模型性能，并在外部测试集中验证它们。

图4.来自不同机器学习模型的AUC的热图，用于预测(a)发现队列和(b)外部测试集中的PDD转化。a=神经心理学测验的z分数纳入临床变量。b=5个认知领域的神经心理学测验综合得分纳入临床变量。LASSO=最小绝对收缩和选择运算符，RBF=径向基函数，RF=随机森林，ROSE=随机过采样示例，SMOTE=合成少数过采样技术，SVM=支持向量机。对于特征组合，同时使用皮层厚度和临床变量(AUC范围为0.80-0.88)训练的模型比仅使用临床变量(AUC范围为0.70-0.81)或仅使用皮层厚度变量(AUC范围为0.75-0.83)训练的模型表现更好。在成对比较中，在所有模型类型中，使用这两个变量训练的模型比使用临床变量或皮层变量训练的配对模型显示出更好的性能。当比较用临床变量训练的模型和用皮层厚度变量训练的模型时，根据模型类型发现相互矛盾的结果(图5)。

图5.水平条形图根据特征组合显示每次迭代模型性能的成对比较结果。绿色、灰色和黄色分别表示在前面编写的模型与在后面编写的模型相比表现出更好、相同和更差性能的迭代次数。只有在特征选择后经过训练的模型才包括在本分析中。NP=神经心理学，RF=随机森林，ROSE=随机过采样示例，SMOTE=合成少数过采样技术，SVM=支持向量机。对于神经心理测试分数，以z分数(AUC范围为0.74~0.88)训练的分类器总体上好于以综合分数(AUC范围为0.70~0.86)训练的分类器。过采样方法在模型性能上没有发现一致的趋势。在外部测试集中，根据模型类型，用这两个变量训练的模型表现为一般到良好(AUC范围为0.69-0.84)。使用皮层厚度变量训练的模型只显示出较好的性能(AUC范围为0.70-0.75)。

4.讨论

将皮层变薄与帕金森病(PD)、痴呆(PDD)联系起来的组间比较结果在临床环境中的价值有限。因此，作者使用机器学习研究了大脑皮层厚度的MRI信息是否可以帮助预测PD和MCI患者在个体水平上未来转化为PDD的情况。在发现队列中，用皮层厚度变量(被试AUC范围0.75-0.83)训练的模型与用临床变量训练的模型表现相当(AUC范围0.70-0.81)。当使用两种变量(AUC范围为0.80-0.88)而不是只使用一个变量训练模型时，性能会有所提高，在所有模型类型的成对比较中表现得更好。一些用这两个变量训练的模型在外部测试集中显示AUC大于0.80，而只用皮层厚度变量训练的模型表现较差到一般(AUC范围为0.70-0.75)。此外，训练条件不同，表现也不同，没有单一的最佳表现模式。因此，结果表明，尽管仅使用皮层厚度预测PDD转换存在局限性，但将皮层厚度变量与临床变量相结合可能有助于在个体水平预测PD和MCI患者的PDD转化。此外，通过确定大脑后部区域(包括角回)和嗅觉相关额区(包括双侧嗅回、右直肌回和左眶前回)的皮层厚度作为重要特征，研究结果也可能有助于揭示PDD转化的病理生理学特征。过去的大量队列研究发现PDD的某些临床危险因素，如帕金森病发病时的高龄、男性、低教育水平、较低的基线认知功能、严重的基线运动症状和抑郁。与此同时，其他具有相对较小队列的研究试图确定PDD转化的罪魁祸首大脑区域，但结果相互矛盾。额叶萎缩被认为是PDD的预测因子，而后脑萎缩在PD患者的认知功能下降中更为重要。在这项研究中，大脑前部和后部区域被一致地选为预测PDD转化的特征。在这项研究中，在皮层厚度特征中，左角回皮质变薄最为常见，其重要性和权重都很高。角回参与许多认知任务，包括语义处理、空间认知、记忆提取、注意以及单词阅读和理解。因此，作为PDD转化的神经心理学预测指标的大脑后部皮层功能障碍和额叶功能障碍可能至少部分是由角回萎缩引起的。较低的记忆力、注意力和视觉空间功能，在研究中被选为PDD转化特征，也可能部分归因于角回皮层变薄。此外，角回是默认网络的一部分，在神经退行性疾病的认知功能障碍中被认为是重要的。虽然角回并没有受到太多的关注，但在纵向研究中，这一区域一直被认为是帕金森病患者糖代谢降低的后脑区的一部分。此外，PD和MCI患者糖代谢降低的区域与PDD患者的萎缩区域重叠。这表明，结构变化伴随着新陈代谢变化，在早期阶段可能是微妙的。因此，作者推测，在传统的组水平比较分析中，角回结构变化的微小差异可能不会被检测到，但可以用不同的分析方法来检测，例如这项研究中使用的嵌入型特征选择和机器学习技术。在这项研究中，还选择了几个额区作为特征。这些区域包括双侧嗅回、右直肌回和左眶前回，它们都与嗅觉功能相关(26例)。除了这些额叶区域，被选为特征的大脑后部区域与帕金森病和严重营养不良患者的低代谢和皮质萎缩区域重叠。与这些结果一致的是，研究将较低的嗅觉功能也选为预测PDD转化的一个特征。嗅觉功能障碍与PDD发病风险增加之间的关联已在先前的研究中反复观察到。帕金森病的病理发现从嗅球和嗅束侵入内嗅皮层等与认知相关的区域，这可以解释为什么嗅觉障碍与未来的PDD有关。与嗅觉和认知相关的区域，如眼眶额叶皮质、前额叶皮质或边缘区域，涉及帕金森病或同时出现阿尔茨海默病的病理结果，或基底前脑受累导致胆碱能缺陷，这也与嗅觉和认知功能障碍有关，这些都是这种联系的其他可能原因。与预期相反的是，在支持向量机线性核模型中，与认知和嗅觉相关的右侧扣带前皮质和左侧海马旁回的皮层厚度较大，显示出PDD转化的可能性更高。尽管研究还显示，在有PDD转化风险的PD患者中，这些区域保留了功能连接或葡萄糖代谢，这表明这些区域在PDD转化中发挥的作用有限，但只有未来的纵向研究才能最终证实这些发现。

5.局限性

首先，普遍性是一个问题。尽管作者在10000个训练和测试集上应用了不同的机器学习算法，但如果不同的机器学习方法应用于不同的队列，结果可能会有所不同。因此，研究结果应该谨慎解读。其次，作者尝试使用外部测试集来验证预测模型。然而，只有四个PDD转化型的外部测试集规模很小，大大限制了结果的准确性和推广性。此外，外部测试集中使用的MRI扫描仪和采集参数与发现队列中使用的不同。这种差异可能导致皮层厚度测量中的非生物偏差。研究结果还显示，两个数据集之间某些区域的皮层厚度不同，这可能至少部分是由这种偏见造成的。因此，不能排除在外部测试集中扫描仪对皮层厚度和模型性能影响的可能性。

6.结论

总之，尽管仅通过MRI测量皮质厚度来预测转化为PDD仍有局限性，但皮质厚度与临床变量相结合，有可能在个体水平上帮助预测PD和MCI患者的PDD。具体地说，包括角回在内的大脑后部区域和与嗅觉相关的额叶区域的皮层变薄可能有助于预测PD和MCI患者的PDD转化。未来的多中心纵向研究需要更大的样本量和协调的皮层厚度测量，以解决皮层厚度作为PDD转化的个体水平预测因子在PD和MCI患者中的应用。