npj | digital medicine:可解释性人工智能构建AD患者结构性脑畸变的个性化特征

摘要:基于磁共振成像(MRI)数据的深度学习在神经系统疾病诊断与预后中潜力巨大,但临床应用受限,因其模型不透明。本研究通过训练卷积神经网络(CNN)区分痴呆患者与健康对照,并利用分层相关性传播(LRP)提供个体层面的解释,克服了这一挑战。验证表明,模型识别与痴呆结构性脑畸变知识相符。在轻度认知障碍(MCI)数据集中,可解释的痴呆分类器预测向痴呆过渡,其空间丰富的解释补充了模型预测,并表征了个体大脑疾病表现。我们构建了形态学记录,可视化痴呆病理学数量和位置,跟踪疾病进展。形态学记录不仅验证了相关性图的有效性,还揭示了其在患者分层和疾病进展预测中的临床效用,为精准医学提供了有力支持。

1. 引言

自1970年代磁共振成像(MRI)技术问世以来,它为非侵入性地探查人体内部结构提供了前所未有的机会。在神经科学领域,通过MRI扫描仪获取的图像已被广泛用于解析患有各类神经系统疾病患者的大脑与健康个体大脑之间的差异。传统上,这一过程涉及从患有特定疾病的患者组和类似的健康对照组中收集数据,运用统计推断方法来识别各组间在大脑空间位置上的显著差异。这些位置并非简单的空间坐标点,而是由反映大脑结构经验或理论理解的图集所定义的形态区域。利用形态测量属性(如预定义区域的厚度或体积)来描述这些组间差异,这一方法的一大优势在于其结果的天然可解释性:从平均意义上看,患有特定疾病的患者会在大脑的特定区域以可理解的方式偏离常态。

现代脑部扫描技术的高度定位能力,进一步提升了精确描述个体大脑偏离预期(通常指健康)规范位置与方式的能力。然而,尽管发现了一些显著的效果,但这些效果往往细微,且个体层面的预测能力相对有限,这引发了对现有分析方法是否能充分模拟复杂心理或临床现象的质疑。为了应对这一挑战,提出了新颖的概念性方法,强调构建具备更强表达能力的建模框架,这些框架通过捕捉大脑多个可能远程区域间复杂的非线性交互来反映群体差异,并以预测为核心导向。这种建模的灵活性自然地通过人工神经网络(ANN)实现,作为一类结合多层次数据方面的统计学习方法,ANN能够准确解决复杂的预测任务。

然而,尽管这些方法往往能够实现高度精确的预测性能,如在多种临床情境下展现出足够区分病例与对照的分类准确性,但其代价是模型决策的不透明性,因为模型采用的决策规则难以被人类直观理解。这一“黑匣子”特性被广泛认为是限制其在医学等安全关键领域广泛应用的重要因素。为了打破这一限制,可解释人工智能(XAI)技术的兴起为解析人工神经网络行为提供了可能的路径。XAI提供的解释种类繁多,涵盖了不同模型类型、解释所处的概念层次以及面向的具体受众。在计算机视觉领域,XAI致力于对单个决策进行事后解释,即解析模型为何会对特定图像做出某一预测,通常以直观的热图形式展示,标明图像不同区域对预测的贡献程度。

分层相关性传播(LRP)作为这类方法的一种变体,通过将相关性从预测空间向后传播至模型的每一层,最终传递至图像空间,从而生成相关性图。LRP的主要优势在于其直观的解释机制:通过其构建方式,确保了不同层间表示对预测贡献的相关性总量保持不变。因此,回传至输入体素的相关性直接体现了该体素对预测结果的影响。近年来,LRP及其他可解释AI方法被应用于痴呆症研究,发现这些热图常常高亮显示与已知痴呆变化相吻合的区域。然而,尽管LRP展示了支持精准医疗临床决策的潜力,但尚未充分探索利用LRP生成的精细个体化热图来精确描绘疾病个体化表现的可能性。

图片

图1 建模过程概述

在本研究中,我们旨在将深度学习与XAI技术结合应用于大脑的MRI扫描,以在个体层面对痴呆症进行可解释且临床相关的预测(图1)。我们利用先进的神经影像学数据架构,训练卷积神经网络(CNN)以基于T1加权结构MRI区分痴呆症患者与健康对照。进而,我们在训练好的模型上实施LRP,构建一个计算流程,以生成个体层面的相关性图作为模型预测的解释。通过对痴呆患者亚群进行验证,我们不仅在定性和定量背景下与结构畸变解剖分布的现有知识进行比较,还进一步探讨这些相关性图在预测轻度认知障碍(MCI)患者向痴呆过渡时的潜在预后价值。此外,我们旨在探究这些记录如何根据患者的特定临床特征和疾病进展对其进行分层,以期体现可解释人工智能在精准医学中的广阔临床应用前景。

图片

图2 与三个替代方法的比较验证

2. 结果

我们精心整合了源自多个渠道的MRI数据,构建了一个包含854名异质性痴呆患者的数据集,这些患者的年龄跨度为47至95岁,其中女性占比47%。此数据集基于多种诊断类别以及严格的纳入诊断标准,同时设立了一组与之在站点、年龄及性别上均严格匹配的对照组。在模型训练阶段,我们采用了多个卷积神经网络(CNN)架构,旨在精确区分上述各组患者。通过实施交叉验证策略,我们充分利用了每个参与者在三个训练折叠中的所有可用时间点数据,并在独立的验证与测试折叠中,为每位参与者随机选取了一个时间点进行评估。当我们将来自所有折叠的所有参与者的样本外预测结果汇总起来时,对于采用最佳验证性能的模型所做出的预测,我们观察到了极为满意的区分能力。具体而言,这些预测在受试者工作特征曲线(ROC)下的组合面积(AUC)达到了0.908,跨折叠划分的范围介于0.904至0.920之间,展现出了极高的准确性,其准确率为84.95%,跨折叠划分的范围则从83.04%至87.13%不等。这一结果不仅与在单一数据集中针对特定亚型进行分类的类似研究相媲美,甚至在某些方面略胜一筹,进一步凸显了我们方法的强大潜力与稳健性。

2.1 相关性图精准定位痴呆症患者的大脑异常区域

基于验证集中AUC值最优的分类器,我们构建了一个可解释性增强的痴呆症预测流程,该流程集成了复合LRPdementia策略,并优先展示对痴呆症预测具有正向贡献的大脑区域。利用这一流程,我们针对所有参与者,包括那些未参与模型训练的个体,计算了样本外相关性图谱。从定性角度看,这些图谱不仅验证了痴呆症已知结构畸变的解剖位置,还揭示了不同个体间的细微差异。该参考图G由先前研究精心构建,为本次对比提供了坚实的基准。我们通过在不同阈值下对两侧地图进行二值化处理,并计算Dice重叠度(图2a),实现了与参考图的精确对比。结果显示,随着二值化阈值的提升,三个替代流程与参考图的重叠量单调递减(图2b),而Rdementia则表现出更为稳定的重叠模式,即便在地图变得更为稀疏时,其重叠量仍保持较高水平,这充分证明了Rdementia与G之间的高度相似性。进一步地,Rdementia与G之间的归一化互相关达到0.64,远超其他替代流程的0.41、0.40和0.12,这一量化指标再次印证了Rdementia的优越性。此外,我们还对Rdementia和G进行了区域性的定性比较,两者在关键区域的标注上表现出高度一致性(图2c),均强调了伏隔核、杏仁核和海马旁回等区域的重要性。为验证这些区域在预测中的关键作用,我们实施了迭代遮罩与预测程序。针对每位参与者,我们根据流程生成了基线痴呆预测y和相关性图R。随后,我们按照相关性图的重要性顺序,逐步遮罩图像中的关键区域,并观察预测值的变化趋势(图2d)。在仅考虑真阳性结果的情况下,理想中的预测值应从接近1.0(实际平均为0.89)开始,并随着遮罩区域的增大而逐渐趋近于0.5(代表随机预测)。观察到的预测值下降速率直接反映了被遮罩区域是否蕴含了分类器正确分类图像所必需的关键信息,从而进一步证实了Rdementia在痴呆症预测中的解释力与可靠性。

图片

图3 痴呆方法在预测轻度认知障碍队列中的进展和表征个体水平偏差方面的效用

2.2 可解释性流程的输出对MCI患者具有预后价值

针对全部1256名此前模型未曾接触过的轻度认知障碍(MCI)患者,其涵盖的时间点总数达到6448个,我们精心构建了一个平均集成模型。该模型旨在为每个患者在各自的所有时间点上生成单一的外部样本预测结果及相关性图谱,共同构成了一个详尽的形态学记录(图4)。这一形态学记录以直观的方式展现了模型随时间推移所检测到的与痴呆症相关的病理改变,既通过预测值定量刻画了病理学的绝对数量,又借助相关性图谱精确定位了这些改变的发生位置。从定性分析的视角出发,我们观察到这些预测值与相关性图谱在患者个体内部随时间流逝而保持相对稳定性,同时也展现出了足够的变异性,从而能够勾勒出各自独特的病理变化轨迹。为了深入探究我们所提出的形态学记录在预后评估中的潜在价值,我们根据随访期间患者的病情变化轨迹,将MCI患者细致地划分为三个亚组:第一组为病情呈现改善趋势的患者(n=80);第二组为在整个随访周期内病情保持稳定、未被诊断为痴呆的sMCI患者(n=754);第三组则为病情恶化、最终发展为痴呆的pMCI患者(n=304)。值得注意的是,另有118名患者因在初始时间点即被诊断为非MCI状态,或呈现出更为复杂的诊断变化轨迹(如MCI→AD→CN等),而被谨慎地排除在后续的深入分析之外。

导致潜在诊断的痴呆预测存在巨大的群体差异,表明这是一种具有先天预后价值的生物标志物,但我们形态学记录中最显着的部分是相关性图。因此,我们在此基础上进行了探索性分析,以进一步区分非进步群体和进步群体,并表征群体间和群体内的异质性。然而,考虑到图谱的高维性和相对较少的患者数量,我们首先对所有 MCI 患者的相关图谱应用主成分分析 (PCA),有效地将其信息内容压缩为图谱编码方面的较小特征变量集,从而使后续的分析成为可能。分析。我们保留了解释最大方差的 64 个成分,并观察到它们定性地聚类为三个总体类别。第一个组件是检测总体相关性的通用组件,类似于痴呆症患者的平均地图,因此本身组成一个集群。下一个集群由随后的三个组件组成,这些组件捕获了高级、抽象的相关模式,即沿矢状轴和皮质下区域的偏侧化差异(图 3b)。最终的聚类由其余 60 个组件组成,这些组件捕获了先前分析中揭示的区域中存在/不存在相关性的特定复杂模式。为了研究使用相关图进行预后的潜力,我们首先使用 Cox 比例风险模型进行生存分析,其中诊断被视为最终事件。

具体而言,我们针对未确诊人口比例随年龄变化的趋势进行了建模,并巧妙地将主成分分析(PCA)中的受试者载荷因子作为预测因子纳入考量。经过严格的校正后,我们识别出37个成分与未确诊状态之间存在显著相关性(图3c)。然而,在审视痴呆预测值(y进行了分层分析,并拟合了等效模型,结果显示即便在此情境下,仍有29个关联保持显著,且所有系数符号一致。不过,此分析尚未全面纳入参与者随时间动态变化的预测与相关性图谱信息。为此,我们进一步模拟了一个贴近临床实际的场景,仅利用相同参与者的数据,重构了这一问题。具体而言,对于每位MCI患者在任意时间点t,我们探究了是否能基于t时刻获得的LRP痴呆信息,以每年为间隔γ,准确预测其未来五年内是否会进展为痴呆。关键之处在于,痴呆预测模型在整个过程中并未接触这些参与者的所有时间点数据,从而确保了预测与LRP痴呆相关性图的样本外有效性。我们采用嵌套交叉验证策略,以确保进展预测同样具备样本外泛化能力。首先,我们构建了一个以年龄和性别为基准的预测模型,结果显示该模型在任何时间点均未展现出预测效能,这从侧面验证了数据集在年龄与性别变量上的无偏性。随后,我们将痴呆预测模型的预测值作为新的预测因子纳入中,令人振奋的是,此举显著提升了所有年度间隔的预后预测效能,五年后的折叠平均AUC更是高达0.889(图3d)。最后,在包含成分向量作为额外预测变量的复合模型中,我们见证了所有年份预测性能的进一步提升,五年后的AUC峰值达到了0.903。综上所述,我们表现最为优异的模型在预测五年后MCI患者进展为痴呆方面的表现令人瞩目,其AUC高达0.903,准确率为84.1%,阳性预测值为0.92,灵敏度为0.82,特异性为0.86,充分彰显了该模型在辅助临床决策中的巨大潜力。

图片

图4 随机选择的MCI 患者的形态学记录的可视化

2.3 相关图的各个方面与不同领域的认知障碍相关

最终,我们深入探究了通过主成分分析(PCA)识别出的共同特征是否与不同认知及功能领域的损伤状况存在关联。为此,我们从7项神经心理学测试中提取了总计17项总结性指标,这些测试与MRI检查大致同步进行。随后,我们利用线性模型,在考虑了年龄、性别及痴呆预测值作为协变量的基础上,对733名轻度认知障碍(MCI)患者的受试者CT负荷进行了相关性分析。经过FDR校正后,我们发现了18个独特的PCA成分与14项认知测量指标之间存在48个显著的相关性(图3e)。特别地,成分30与功能活动问卷(FAQTOTAL)的总分在各自类别中均展现出最高的显著关联性,两者均达到了6个阈值。尤为关键的是,这些PCA成分展现出与不同认知测量指标之间多样化的关联模式,揭示了它们在反映认知功能受损方面的特异性。为了排除这些显著关联可能由分量与y之间的共线性所驱动的可能性,我们进行了一项平行分析,但在此分析中未将^y作为预测变量纳入。结果显示,仅有5/48的先前显著相关性在去除y后仍保持显著,但系数符号相反,这进一步证明了大多数关联的独立性和稳健性。综上所述,我们在相关性图谱及后续分量向量中捕捉到的空间特征,与神经心理学测试中的多种表现模式紧密相关,这些测试深刻体现了痴呆患者表型的异质性。这一发现不仅增强了我们对痴呆病理生理过程的理解,也为未来基于影像学的个性化评估与干预策略提供了重要依据。

3. 讨论

鉴于痴呆症所带来的沉重负担及其预期患病率的不断攀升,开发用于诊断与预后评估的创新技术解决方案已迫在眉睫。尽管痴呆症常被视作一种同质性疾病或依据病因学及病理生理学划分为若干亚型,但患者间展现出的缺陷、疾病进展轨迹及认知功能损害却各具特色且错综复杂。为深入理解痴呆症大脑基础的异质性,我们运用脑部MRI与可解释人工智能(XAI)技术,训练了神经网络模型以区分痴呆症患者与健康人群,并通过分层相关性传播(LRP)方法导出相关性图,旨在揭示分类器在个体层面的决策逻辑。这些相关性图不仅具备个体针对性和跨区域分析能力,成功预测了痴呆症的发生,还进一步验证了关于结构性脑畸变解剖分布的既有认知。在一项针对轻度认知障碍(MCI)患者的研究中,该方法有效地表征了个体间的疾病表现差异,并追踪了与多领域认知功能相关联的疾病发展轨迹。尽管当前成果尚需在真实临床环境中接受更为严格的验证,但我们的XAI管道已初步展现出其在辅助临床医生监测和评估个体患者疾病进展方面的巨大潜力。

在众多XAI技术中,我们选择LRP作为核心解释工具,主要基于其简洁易懂的解释机制以及前期研究中展现出的高鲁棒性和特异性,这些特性对于临床决策的制定至关重要。然而,我们必须认识到,仅获得有意义的解释是迈向临床神经影像AI应用的第一步,远非终点。市场上存在诸多预测模型,它们虽能提供解释,却往往缺乏深入的理解能力,引发了对XAI可能沦为“形式化但不明朗”系统的担忧。因此,我们致力于通过实证探索来深入剖析这些解释的本质,评估其实际应用价值,并构建必要的信任基础。在我们的验证过程中,痴呆症管道生成的解释性地图不仅展现出了更强的预测能力,而且与现有医学知识保持了高度的一致性。与三个替代管道相比,我们的方法在病理学层面的表现更为优越。鉴于早期类似方法所暴露出的局限性,这些验证结果显得尤为重要,它们不仅证实了先前的研究发现,还在此基础上进行了拓展,增强了人们对模型解释意义的信心。最后,我们强调,技术的最终验证应发生在其实际应用于临床场景的过程中,即由临床人员将技术直接应用于实际患者的数据上。这一步骤对于确保技术的有效性、安全性和实用性至关重要,也是我们未来工作的重点方向。

我们不仅验证了相关性图的有效性,更进一步地提出了将其视为一种前沿的认知与临床辅助工具,旨在全面描绘痴呆症的多元面向。为深化这一探索,我们分析了这些图谱预测从轻度认知障碍(MCI)向痴呆症过渡的潜力,并将其与多样化的认知评估指标相关联,从而拓宽了当前研究的视野。在这两项细致入微的分析中,尽管证据尚显初步,但已足以揭示这些地图所蕴含的信息超越了单纯模型预测的范畴,预示着其在临床决策中的潜在价值。

为了直观展示这些成果如何助力临床决策流程,我们将分析结果整合为一套拟议的形态学记录(图4),旨在辅助临床医生精准定位形态学异常,从而优化诊断过程。通过深度表型分析,我们旨在捕捉痴呆症病理生理学的微妙变化,这不仅有助于绘制疾病异质性的精细图谱,更为未来研究指明了精准的生物学靶点。对于个体患者而言,这一进展意味着向个性化诊断迈出了重要一步,能够指导制定更为精准的疾病管理策略与缓解治疗方案,并为未来精准医疗的实现奠定坚实基础。

值得注意的是,在我们的相关性地图中,伏核、杏仁核及海马旁回等区域显示出最高的相关密度,这些区域均被证实为痴呆症病理过程中的关键受损区。然而,有趣的是,尽管海马体在类似研究中常被提及,却并未在我们的分析中占据显著位置。这一现象可能源于病理学的实际分布差异,但我们更倾向于将其归因于模型内部机制的作用:卷积神经网络(CNN)依赖于空间上下文来辨识大脑区域并评估其状态,其滤波器覆盖的区域往往超出目标区域本身,导致LRP在向后传播时,相关性的定位可能不具备体素级的精确性。此外,我们的模型或可视为一种广泛的萎缩检测工具,更倾向于识别周围的间隙区域而非直接聚焦于特定区域本身。

尽管相关性图提供了宝贵的信息,但其解释仍需结合临床医生的专业判断,以最大化其在临床实践中的应用价值。同时,我们研究的另一重大发现是痴呆症分类器在预测方面的卓越表现。与以往研究相比,我们的模型不仅有效区分了痴呆症患者与健康对照,更在痴呆症确诊前的多年内,成功识别出进展性与非进展性MCI患者之间的差异,这一发现与理论驱动研究及近期深度学习研究的结论相呼应,共同揭示了大脑结构变化在临床症状出现前的可检测性。这一发现为基于MRI的风险评估提供了视觉解释的支持,预示着先进技术在早期检测与诊断中的广阔应用前景。若未来治疗手段得以验证并普及,早期识别高风险患者将变得至关重要。及时采取干预措施,不仅能够显著提升患者及其照护者的生活质量,更有望有效延缓认知衰退的进程。因此,推广高精度、易操作的早期检测技术,对于应对即将到来的痴呆症患者激增挑战、开辟更有效的治疗窗口具有不可估量的价值。

尽管我们的研究揭示了可解释人工智能(尤其是分层相关性传播,LRP)在痴呆症检测与表征方面作为转化技术的巨大潜力,但必须正视其存在的局限性。首要的技术考量在于,模型预测与生成的相关性图之间存在着绝对的相互依赖,这导致在模型错误时,其解释性并不总能直观显现,特别是在假阴性案例中,相关性图难以与真阴性区分。此外,尽管这些地图蕴含了足以阐释预测的信息,但它们可能并不全面,未能囊括MRI中所有对诊断至关重要的证据,这对个性化医疗尤为关键。我们已通过集成与针对性增强等实用策略缓解此问题,但核心方法的理论完善仍需进一步探索,以确保地图的完整性。

除了LRP本身的局限性外,本研究还面临其他挑战。数据集的异质性,主要由ADNI和OASIS等数据库构成,限制了模型在推断其他痴呆病因方面的泛化能力。为此,我们提倡采用源自记忆诊所等早期认知障碍患者群体的数据,以增强模型的临床实用性。同时,确定临床广泛使用的痴呆标签是否为最佳预测目标亦需审慎考量。鉴于ADNI和AIBL等数据库包含丰富的生物标志物信息,我们鼓励未来研究探索这些生物预测目标与我们的发现之间的互补性。

样本外泛化,特别是跨扫描仪和采集协议的泛化能力,是另一项待验证的关键。尽管我们已利用多站点数据来部分解决此问题,但结合迁移学习进行更严格的验证(如排除特定站点进行独立验证)仍有待实施。我们强调,临床实施应基于实际数据,并建议至少对来自相关站点、扫描仪及诊所协议的数据进行微调,同时确保训练模型中的类别频率与临床实际相符。此外,我们还需关注掩模与预测验证的周期性问题,即模型认为重要的区域往往也是驱动预测的关键区域,这可能导致相关性图在不同模型间的非独立验证。我们已采用交替测试与验证策略来缓解此问题,但完全避免循环依赖仍需更大规模、更独立的数据集支持。将改善中的MCI患者纳入进展模型虽能反映真实临床场景,但也可能因病情的非稳定性而简化预测任务,进而夸大绩效指标。因此,对个体患者预测值的解读需持谨慎态度。然而,我们广泛的验证方法、对方法局限性的深入剖析以及对大型数据集的充分利用,为可解释人工智能在神经系统疾病临床决策支持中的应用奠定了坚实基础。

综上所述,尽管面临诸多挑战,我们的研究仍为基于脑MRI的可解释人工智能在个性化临床决策支持系统中的应用提供了宝贵的经验与路线图。我们证明了在异质大脑MRI扫描集上训练的深度神经网络不仅能够预测痴呆症,其预测结果还能被人类有效解读。更重要的是,我们的流程能够通过对表现出早期认知障碍迹象的个体进行结构性大脑畸变的个性化特征推理,为精确的表型分析与预后评估提供了现实可行的临床工具。

4. 方法

4.1 数据

本文所利用的数据均源自先前已发表且可公开获取的研究成果,这些研究均严格遵循了参与者知情同意原则,并获得了相应机构审查委员会或伦理委员会的正式批准。本项研究更是在挪威地区医学与健康研究伦理委员会(REK)的严格监督下展开,全程遵循《赫尔辛基宣言》的指导原则,确保了研究的伦理合规性。

为了构建针对痴呆症的预测模型,我们精心汇编了一个病例对照数据集,该数据集跨越了七个不同的数据源(详见补充表1),涵盖了来自同一扫描站点的痴呆症患者与健康对照者。鉴于原始数据集中采用的诊断标准存在差异,我们实施了一套详尽的规则体系,以实现一个统一且具备异质性的痴呆症标签定义(具体规则参见补充表2)。我们筛选出所有时间点均被诊断为痴呆症的参与者,组建了患者组(n=854)。随后,针对每个独特的代理站点(特别在ADNI中,考虑到其扫描仪与采集协议的多样性,我们以场强作为站点的代表),我们依据性别、跨越十年的年龄区间等标准,为每位患者匹配了相同数量的健康对照,从而构建了一个平衡的对照集(总计n=1708,详细信息见表1)。在建模前,我们进一步将数据集划分为五个等量的子集(折叠),并确保每个参与者的所有时间点数据均归属于同一折叠,以实现基于诊断、部位、性别及年龄的分层。

针对轻度认知障碍(MCI)数据集,我们的筛选工作始于ADNI数据库中所有被诊断为MCI的参与者,这些参与者需满足一系列严格的诊断标准,包括主观记忆抱怨、MMSE评分介于24到30之间、CDR评分大于0.5、记忆框评分大于0.5、韦施勒记忆量表修订版得分低于特定阈值(依据教育水平不同而有所差异),且至少在某一时间点符合上述条件。最终,我们从1256名参与者的6448次访问记录中筛选出了相关数据,其中无一图像用于模型训练,以确保数据集的独立性。这一严格筛选过程不仅确保了所有参与者在至少一个时间点获得了MCI诊断,还允许我们捕捉到从正常认知状态过渡到MCI、从MCI发展为阿尔茨海默病(pMCI)等多种复杂的诊断轨迹。在后续分析前,我们剔除了初诊非MCI及诊断轨迹不明确的参与者,最终保留了1138名参与者的5607次访问记录。

针对上述两个数据集,我们提取了每位参与者在每个时间点的T1加权结构MRI数据,作为后续预测模型的核心输入。在建模前,我们利用了一套成熟的预处理流程,对原始图像进行了必要的处理,包括颅骨剥离及与MNI152标准空间的六自由度线性配准。这一过程确保了处理后的图像由标准化的体素值构成,不仅精准地注册到了公共空间模板,还最大限度地去除了非脑组织的影响,为后续分析奠定了坚实的基础。

4.2 模型

所有构建的痴呆症预测模型均衍生于PAC2019竞赛中获奖的简易全卷积网络架构,这些模型经过精心调整,引入了一个带有sigmoid激活函数的单一输出神经元。此架构保持了一种简约而高效的VGG风格,由六个卷积块组成,整体参数规模约为300万。为了提升模型的初始化效能,我们采用了公开可用的脑年龄预测模型权重,该模型先前已展现出在不同扫描站点与协议间非凡的泛化能力。

在训练阶段,我们借助Keras框架,利用单个配置有40GB内存的Nvidia A100 GPU,在Tensorflow 2.6.0环境下运行所有模型。训练算法采用了经典的随机梯度下降(SGD)优化器,学习率通过细致的超参数调优确定(详情见后续章节),并专注于最小化二元交叉熵损失。整个训练过程历时160个周期,每批处理6个样本,并自动选择验证过程中损失最低的时点作为最终模型。根据超参数配置的不同,单个模型的训练时间略有差异,平均约为4小时。

为实施严格且有效的验证策略,我们针对每个保留的测试折叠,采取三折训练与一折验证的模式,类似于引入了额外样本外测试集的交叉验证方法。此流程确保了对全体1708名参与者的无偏预测,同时支持超参数的灵活调整。我们精心优化了一系列超参数,包括dropout率(范围从0.25至0.5)和权重衰减系数(从10-3),并探索了不同的学习率调度策略(如逐步递减、单周期及多周期策略)及轻重不同的数据增强技术。学习率的初始值依据详尽的学习率扫描结果谨慎设定,以确保既能充分利用预训练模型的先验知识,又能促进新任务上的快速适应。

超参数搜索通过对24种不同配置实施简洁的网格搜索来完成,最终选取了在验证集上取得最高AUC分数的模型,用于生成保留测试折叠的样本外预测。在模型评估的终末阶段,我们汇总了所有参与者的预测结果,每位参与者的预测均来自其专属的保留测试集模型。我们主要通过AUC值来评估模型性能,同时考虑到样本匹配的均衡性,也报告了相应的准确性指标。

4.3 MCI 队列的探索性分析

在深入探索轻度认知障碍(MCI)的进程中,我们利用LRP痴呆模型为来自阿尔茨海默病神经影像计划(ADNI)的参与者(在入组时即被诊断为MCI)生成了预测结果及其相关性图谱。首先,我们系统地整合了每位参与者在所有评估时间点的预测与相关性图谱信息(含时间戳),构建了一个专门用于形态学分析的数据架构。随后,基于这一数据架构,我们致力于区分三个关键群体:稳定型MCI(sMCI)、进展型MCI(pMCI)以及那些在数据收集期间认知能力出现改善的患者。同时,为了分析的便利与聚焦,我们将稳定及改善的患者群体合并为非进展组(nMCI),以便于后续进行二元对比分析。

为了探究这些相关性图谱是否与特定的认知功能变化存在关联,我们进一步将图谱的多个方面与多种神经心理学测试的结果进行了详尽的对比分析。这一过程中,我们首先从ADNI项目的多个波次中收集了全面的神经心理学测试数据,并纳入了来自ADNI网站的高级汇总分数,随后手动筛选出横跨不同但相互重叠的认知领域的17个关键汇总分数。我们将这些汇总分数作为认知表现的指标,同时采用分量向量c作为相关性图谱的代理,每个向量均代表特定的病理定位模板。通过将2402个分量向量与733名MCI患者的测试结果进行精准匹配,我们构建了一个坚实的基础用于后续的对比分析。

在分析过程中,我们针对每个认知领域的汇总分数与每个分量向量之间的关联进行了单变量统计分析,同时严格控制了年龄与性别作为潜在的干扰因素。为更精确地评估病理定位的影响,我们还对痴呆预测值^y进行了校正。当面临多个潜在匹配项时,我们随机选取了一个时间点以确保分析的公正性,最终纳入分析的数据点数量在518至675之间不等。此外,我们采用了Benjamini-Hochberg程序对多重测试进行了校正,以增强结果的稳健性。

为确保所观察到的关联并非源于c与y之间的共线性,我们还执行了未校正的等效分析,以验证关联系数的符号是否保持一致。这一系列严谨的步骤旨在为我们提供关于MCI患者认知功能变化与脑部病理定位之间关系的深入洞察。

参考文献:Constructing personalized characterizations of structural brain aberrations in patients with dementia using explainable artificial intelligence.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值