文章信息
文献题目:Developing clinical prediction models: a step-by-step guide 开发临床预测模型:分步指南关注wx公众号:欣欣影像科研懒人包
研究人员:Orestis Efthimiou, et al.
发表时间:2024
期刊名称:British Medical Journal
影响因子:94.60
1. 前言:
临床预测模型旨在通过一组基线预测因子来预测未来的健康结局,以辅助医疗决策制定并改善健康状况。近年来,随着大数据的日益可用和机器学习方法的发展,预测模型在医学领域的应用越来越广泛。例如,一项综述在产科学领域发现了263个预测模型,另一项综述在COVID-19相关领域找到了606个模型。
尽管有许多资源支持预后研究,如PROGRESS框架(提供不同类型预后研究的详细指导)、TRIPOD声明(提供多变量预测模型的透明报告指南,并扩展到集群数据集)和PROBAST工具(提供评估预测模型研究偏倚风险的结构化方法),但已发表的预测建模研究仍常存在严重的方法学局限。例如,心血管疾病领域的363个模型大多因方法学缺陷、不完整呈现及缺乏外部验证而实用性不明确。精神病学领域的308个模型大多存在高偏倚风险。常见的偏倚包括预测因子和结局的定义和测量不一致、缺乏盲法、过拟合等。
因此,这篇文章为对临床预测建模感兴趣的研究人员提供了一个分步指南,旨在帮助他们克服这些方法学挑战。作者基于文献综述和小组讨论,提出了13个关键步骤,涵盖模型构思、预测因子选择、样本量考虑、模型开发和临床有用性评估等方面。其次,作者使用复发-缓解型多发性硬化症的复发预测模型作为示例,详细说明了这些步骤。希望通过本文的指导,研究人员能够更好地设计和评估临床预测模型,从而提高其在实际医疗中的应用价值。关注wx公众号:欣欣影像科研懒人包
2. 方法
2.1 定义目标、组建团队、回顾文献、撰写研究方案
定义目标:我们应该首先明确定义预期预测模型的目的,需要明确以下几点:
-
目标人群:模型应为谁进行预测?例如,南非的HIV感染者;有糖尿病史的人群;西欧的绝经后女性。
-
感兴趣的健康结局:需要预测的终点是什么?例如,艾滋病、总生存期、无进展生存期、特定不良事件。
-
医疗环境:模型将在什么环境中使用?例如,模型可能在初级保健中使用,或在三级护理中的临床决策支持系统中实施。
-
用户:谁将使用该模型?例如,初级保健医生、二级保健医生、患者、研究人员。
-
临床决策:模型预测将如何用于临床决策过程?例如,模型可以用于识别需要进一步诊断的患者、决定治疗策略或影响一系列个人决策。
这些问题的答案应指导后续步骤;它们将影响多个方面,如模型中应包括哪些预测因子、用于开发和验证模型的数据选择,以及如何评估其临床实用性。
组建团队:在开发用于临床的预测模型时,组建一个具有特定医学领域、统计方法和数据源专业知识的团队是非常必要的。包括用户,即可能使用该模型的临床医生和有实际经验的人,也是非常有益的。根据模型的复杂性,可能需要在项目的后期阶段涉及软件开发人员,例如开发一个供用户进行预测的应用程序。
回顾文献:找出相关的已发表预测模型和重要风险因素的研究至关重要,可以通过范围综述(scoping review)来实现这一点。与临床医生讨论综述的结果,有助于我们了解已建立的预测因子和现有模型的局限性。文献综述还可能提供关于预测因子之间的交互作用、预测因子与结局之间的非线性关联、数据缺失的原因以及目标人群中预测因子的预期分布等信息。在某些情况下,进行系统综述可能是有帮助的。
撰写研究方法:研究方案应指导后续步骤。方案可以通过开放获取期刊或在线存储库(如www.medrxiv.org或https://osf.io/)以预印本的形式公开。除了本文讨论的步骤外,TRIPOD声明和PROBAST工具也可能是撰写研究方案时的有用资源。
2.2 选择开发新模型或更新现有模型
根据具体领域,文献综述可能表明已有相关预测模型存在。如果现有模型的偏倚风险较低(根据 PROBAST 评估)并适用于研究问题,那么验证其在预期环境中的有效性可能比开发新模型更为合适。这种方法被称为外部验证。根据验证结果,可能会决定更新和调整模型以适应目标人群和使用环境。 常见的预测模型更新策略包括: 重新校准adjustment(例如,调整回归模型中的截距项) 修订revision(即重新估计某些模型参数)扩展extension(即添加新预测变量)。然这些更新策略主要针对回归模型提出,但也可以应用于机器学习模型。例如,一个随机森林模型曾用于预测中风患者在发病后90天内是否能够完全康复。在外部数据集上测试时,该模型需要重新校准,具体方法是对随机森林模型的预测结果拟合逻辑回归模型。 针对影像数据的预测模型通常通过迁移学习进行,即对先前训练的神经网络进行微调。
2.3 定义结果指标(The outcome measure)
结局可以以多种方式定义和测量。例如,术后死亡率可以定义为30天、60天的二分类结局,或者使用生存时间。使用时间到事件(time-to-event)而不是二分类变量是良好的实践;时间到事件的预测模型可以更好地处理那些随访时间有限且未经历感兴趣结局的人。
此外,时间到事件数据提供的信息比单一时间点的二分类结局更丰富(例如,任何时间点的生存概率)。同样,我们可以使用连续尺度分析连续健康结局,或者在二分类或分类后进行分析。例如,开始药物治疗后第8周的连续抑郁评分可以二分类为缓解或未缓解。将连续结局分类会导致信息损失。 此外,分类阈值的选择通常是任意的,缺乏生物学依据。在某些情况下,阈值是在探索各种临界点后选择的,选择那些最符合数据或产生统计显著结果的阈值。这种数据驱动的方法可能导致在新数据中的性能下降。
2.4 识别候选预测因子并选择测量方法
候选预测因子,识别潜在预测因子
-
文献综述和专家知识:基于文献综述和专家知识(第一步)来识别潜在的预测因子。
-
客观定义和测量:预测因子应尽可能客观地定义,并使用已建立的可靠方法进行测量。
-
生物途径的理解:理解可能支撑预测因子与结局之间关联的生物途径是关键。
-
优先考虑因果关系:优先考虑那些与结局有已证明或疑似因果关系的预测因子,这可能增加模型的泛化能力。
-
不排除非因果关系:缺乏因果关系不应先验地排除潜在的预测因子。虽然与结局无因果关系但强烈关联
考虑预测模型的用户
必须考虑模型的预定用途(在第一步中定义)和数据的可用性:
-
常规测量的变量:哪些变量在临床实践中常规测量并在数据库中可用?
-
成本和实际问题:测量这些变量的成本和实际问题是什么,包括侵入程度?
例子
-
VACS指数2.0:预测HIV感染者的全因死亡率。然而,其中一些预测因子,如肝纤维化指数(FIB-4),在许多HIV感染高发地区的常规实践中可能不可用。
-
多发性硬化症预后模型:一项系统综述发现,75个模型中有44个(59%)包含在初级保健或标准医院环境中不太可能测量的预测因子。
具体考虑
-
数据的可获得性:确保所选预测因子在目标人群中易于获取,且在常规临床实践中经常测量。
-
成本效益:考虑测量这些变量的成本,特别是在资源有限的环境中。
-
侵入性:评估测量方法的侵入程度,选择对患者负担较小的方法。
-
实际操作:考虑临床医生在日常工作中使用这些预测因子的实际可行性。
2.5 收集和检查数据
数据收集
-
理想数据来源:使用前瞻性队列研究中收集的个体参与者数据。
-
实际情况:更常用的是使用现有队列研究或其他并非专门为此目的收集的数据,随机对照试验的数据也可使用。
-
数据质量:试验数据质量高,但可能不具代表性。登记数据提供了一种简单且低成本的替代方案,具有较大的样本量和较好的代表性,但也存在数据限制和测量时间的变异性。
数据错误
-
重要性:在拟合模型之前,解决预测因子和结局中的潜在误分类或测量误差至关重要。
-
方法:考虑变量的性质和测量方法,评估测量误差的影响。如果测量误差风险高,考虑使用替代结局指标或排除不重要的、测量不精确的预测因子。
-
校准问题:如果数据集中的系统误差与临床实践中遇到的不一致,模型的校准可能会较差。
变量分布和缺失数据
-
变量分布:检查数据集中变量的分布,排除变化有限的预测因子。
-
低频率变量:对于低频率但具有重要意义的变量,考虑其效应难以准确估计的情况,可以选择排除或仅适用于没有该变量的人。
-
缺失数据:处理部分参与者在预测因子和结局上的数据不完整问题。根据缺失数据的普遍性,可能需要修改结局或排除某些候选预测因子。如果缺失信息可以填补且有现有证据表明该预测因子重要,可以保留该变量。
2.6 考虑样本量
样本量的一般考虑
-
欠拟合:一个非常简单的模型或基于与结局无关的协变量的模型在开发数据和新数据中表现不佳,这种情况称为欠拟合。
-
过拟合:在一个小数据集中包含过多预测因子的模型(过拟合)可能在这个特定数据集中表现良好,但在新数据中预测准确性差。实际上,由于数据集通常较小且事件较少,且有创建最佳(表面上的)性能模型的诱惑,过拟合比欠拟合更常见。
-
确保数据充足:我们必须确保数据足够,以开发一个包含相关预测因子的稳健模型。
计算特定模型的样本量需求
Riley及其同事 提供了有关样本量计算的有用指导和代码。用户需要指定目标人群的整体风险(对于二分类结局)或平均结局值(对于连续结局)、模型参数的数量,以及预期的模型性能指标(例如,确定系数R²)。需要注意的是,参数数量可能大于预测因子数量。例如,使用三个结点的受限立方样条来建模年龄与结局的非线性关联时,需要两个参数。
-
标准统计模型:按这种方式计算的样本量是标准统计模型的最小样本量。
-
机器学习模型:如果我们要使用机器学习模型,样本量需要大得多。这类模型的样本量计算更为复杂,可能需要模拟。
固定样本量下的模型参数数量计算假设样本量常见的是固定的或基于现有研究。在这种情况下,我们应该进行样本量计算,以确定可以包含在模型中的最大参数数量。一种结构化的模型开发指导方法可以总结如下:
-
计算模型中可以包含的最大参数数量:根据可用的样本量计算。
-
依次使用可用参数:从被认为更重要的预测因子开始,逐步将预测因子从列表中包含进来。
-
注意非线性项和交互项:在列表中包含预测因子的非线性项或交互项时,需要额外的参数。
图1 模型拟合曲线图
2.7 处理缺失数据
一般考虑
-
完整案例:仅依赖完整案例(所有变量都有数据的参与者)会大幅减少样本量。
-
填补缺失数据:为减少信息损失,应考虑填补缺失数据。
多重填补
-
定义:多重填补是一种处理缺失数据的方法,通过创建多个填补后的数据集来考虑缺失数据的不确定性。
-
步骤:
-
-
创建多个数据集:生成多个版本的原始数据集,每个版本的缺失值通过填补模型填补。
-
填补模型:填补模型应与最终预测模型相同,包括相同的预测因子、转换和交互项。
-
辅助变量:使用与缺失数据相关的辅助变量可以提高填补的有效性。
-
合并结果:在每个填补后的数据集上分别进行分析,然后将结果合并,得到最终的模型估计和标准误差。
-
单次填补
-
定义:单次填补是多重填补的简化替代方法,每个缺失值仅填补一次。
-
步骤:
-
创建一个数据集:生成一个版本的原始数据集,其中的缺失值通过回归模型填补一次。
-
分析:在填补后的数据集上进行分析,得到模型估计和标准误差。
-
-
表现:单次填补可以表现良好,但多重填补通常更一致和稳定。
2.8 拟合预测模型
建模策略
-
指定策略:建模策略应在协议中明确(第五步)。
-
常用模型:
-
连续结局:线性回归
-
二分类结局:逻辑回归
-
生存结局:Cox回归或简单参数模型
-
-
高级模型:如果样本量足够大,模型可以包括连续预测因子的非线性项或预测因子之间的交互项。更高级的建模策略,如随机森林、支持向量机、提升方法、神经网络等,也可以使用。这些策略在预测因子之间存在强非线性和交互作用时可能更有价值,但并不免疫偏差。
-
最终策略选择:如果探索了多种建模策略,最终需要选择一个策略。
处理竞争事件
-
定义:当预测二分类或生存结局时,应考虑是否存在相关竞争事件。例如,预测乳腺癌死亡时,其他原因的死亡是一个竞争事件。
-
方法:在竞争事件常见的情况下,应使用竞争风险模型进行分析,如特定原因的Cox回归模型。65较简单的方法是分析复合结局。
数据驱动的变量选择方法
-
不推荐的方法:不建议使用单变量选择方法,即单独测试每个预测因子并仅保留统计显著的预测因子。这些方法不考虑预测因子之间的关联,可能导致有价值信息的丢失。
-
逐步方法:逐步变量选择方法(如前向、后向或双向选择)常用,但也不推荐,因为可能导致估计偏差和预测性能下降。
-
推荐方法:如果需要变量选择,例如为了简化模型的实现,可以使用以下方法:
-
正则化:在模型中添加惩罚项(称为正则化或收缩),以控制模型复杂度并防止过拟合。
-
方法:如岭回归、LASSO(最小绝对收缩和选择算子)和弹性网,这些方法通常会使系数的绝对值减小,即将系数收缩到零附近。LASSO和弹性网可用于变量选择,通过将某些预测因子的系数设为零,使模型更简洁和易解释。
-
机器学习:机器学习方法通常内置正则化。
-
多重填补数据的处理
-
应用策略:如果使用了多重填补,每种建模策略都应应用于每个填补后的数据集。如果有m个填补后的数据集,每种建模策略将开发m个不同的模型。
-
预测结合:
-
Rubin规则:适合简单回归模型,将m个模型的估计参数平均,得到最终参数集,用于预测新个体的结局。
-
预测平均:另一种方法是使用m个模型为新个体做出预测,然后平均这些预测值,这种方法概念上类似于机器学习中的堆叠。
-
2.9 定义评估预测模型的性能
探索了多种建模策略后,我们还需要评估这些模型的预测性能。具体来说,将预测值与数据集中观察到的实际结果进行对比,计算性能指标。对于连续性结果(如血压),可以直接比较预测值和观察值,因为它们在同一尺度上。而对于二分类或生存结果,情况更为复杂,因为预测模型可能给出每个个体发生事件的概率,而观察结果是二分类(事件发生或不发生)或涉及带有删失的时间-事件数据,因此需要更高级的方法。
预测性能的维度
预测性能有两个主要维度,特别是对于二分类和生存结果,评估这两个维度至关重要:
-
区分能力(Discrimination):
-
连续结果:模型区分不同结果的能力。好的区分能力意味着预测值较高的患者实际结果值也较高。
-
二分类结果:模型区分高风险和低风险个体的能力。好的区分能力意味着模型能准确地区分高风险和低风险个体。
-
生存结果:模型根据生存时间对患者进行排序的能力。好的区分能力意味着预测生存时间较长的患者实际生存时间也较长。
-
-
校准能力(Calibration):
-
连续结果:预测值与观察值的一致性。好的校准能力意味着预测值不会系统性地高估或低估观察值。
-
二分类和生存结果:模型不高估或低估风险的能力。好的校准能力意味着模型预测的风险与实际风险一致。
-
模型验证
-
评估数据:最简单的方法是使用与模型开发相同的数据集进行评估,这被称为表观模型性能(apparent validation)。然而,这种方法可能会高估模型性能,导致乐观估计。因此,使用更合适的验证方法评估模型性能至关重要。
-
内部验证:
-
目标:确保使用开发数据集评估模型性能时,避免乐观估计。数据拆分法:将数据集随机分为两
-
部分(如70%训练集和30%测试集)。但这种方法浪费数据,降低统计功效,且在小数据集中效果不佳。
-
k折交叉验证:将数据随机分为k份(通常为10份),用k-1份数据训练模型,剩余1份数据进行测试,循环进行,最后汇总k次评估结果。
-
自助法(Bootstrapping):通过多次抽样生成多个数据集,计算乐观度并进行校正。自助法通常产生更稳定和无偏的结果,因此推荐用于内部验证。
-
-
内部-外部验证:
-
方法:将数据按特定变量(如不同研究、医院、国家)分成集群,每次用一个集群作为测试集,其余集群作为训练集,循环进行,最后汇总结果。这种方法可以提供模型在新环境和人群中的泛化能力。
-
-
外部验证:
-
目标:在未用于模型开发的新数据集上测试模型,确定其在新环境中的可移植性。
-
重要性:外部验证研究越多、越多样化,模型在新环境中泛化的可能性越大。如果模型在新环境中区分能力良好但校准能力不足,可能需要更新模型。
-
争议:虽然某些期刊要求外部验证才能发表,但单一成功的外部验证并不能保证模型在多个新环境中的泛化能力,且这种要求可能导致选择性报告验证数据。因此,建议外部验证研究应与模型开发分开进行,并由独立研究者完成。
-
2.10 选择最终模型
在完成了内部验证和内部-外部验证后,现在是时候根据这些验证的性能指标(以及可能的稳定性评估)选择最终模型了。如果不同的建模策略表现相似,可以根据奥卡姆剃刀原则(即简单有效原则)选择更简单的模型。例如,逻辑回归在区分年轻成人中的1型和2型糖尿病方面与优化的机器学习模型表现相似。在这种情况下,我们会选择逻辑回归模型,因为它更简单、更容易沟通和使用。
决定最终模型的步骤
-
评估性能指标:
-
内部验证:评估模型在开发数据集上的表现。
-
内部-外部验证:评估模型在不同集群或新数据集上的表现。
-
稳定性评估:检查模型在小变化下的稳定性。
-
-
选择最佳模型:
-
性能相似时选择简单模型:如果多个模型的性能相似,选择更简单的模型。简单模型通常更易于理解和实施。
-
考虑实际应用:选择在实际应用中更实用的模型,例如在临床实践中更容易使用的模型。
-
示例
-
逻辑回归 vs. 机器学习模型:
-
性能:逻辑回归和优化的机器学习模型在区分1型和2型糖尿病方面的表现相似。
-
选择:由于逻辑回归模型更简单、更容易沟通和使用,因此选择逻辑回归模型。
-
2.11 临床决策曲线分析
一个预测模型可能具有很强的区分能力和良好的校准能力,但其价值取决于在临床实践中的实际用途。尽管一个准确的预测模型在咨询患者可能的结果方面非常有用,但评估其在指导决策中的效用则较为复杂。决策分析方法可以通过量化其临床影响,考虑预期的益处、风险和成本,来评估是否应在实践中使用某个预测模型。
决策曲线分析
-
净收益(Net Benefit):将决策策略(例如,基于预测模型决定是否治疗)的益处和危害放在同一尺度上进行比较。净收益计算公式为:真阳性率的期望百分比减去假阳性率的期望百分比,再乘以由选定阈值确定的权重。
-
决策曲线:通过绘制模型在一系列临床上相关的阈值下的净收益,得到决策曲线。决策曲线可以用来比较基于模型做出决策的效益与替代策略(如治疗所有人或无人)的效益,也可以比较不同模型的效益。
-
决策阈值:选择决策阈值可能是主观的,合理的阈值范围取决于设置、条件、可用的诊断测试或治疗方法以及患者的偏好。阈值越低,我们愿意接受的不必要的测试或干预就越多。
2.12 评估个体预测者的预测能力(可选步骤)
在预测建模中,主要关注的是优化模型的整体预测性能,而不是评估单个预测因子的重要性。然而,识别重要的预测因子有时也很有意义,例如,在评估是否将新的生物标志物纳入常规测量时。此外,一些预测因子可能是可改变的,如果它们与结果之间存在因果关系,这些因子可能在预防中发挥作用。因此,作为额外的可选步骤,研究人员可能希望评估所包含预测因子的预测能力。
评估预测因子的重要性的方法
-
回归系数:
-
线性回归模型:查看(广义)线性回归模型中的估计系数是一种简单的方法。然而,当线性回归的假设不成立时(例如存在共线性),这些估计可能不可靠。需要注意的是,多重共线性不会威胁模型的预测性能,只是会影响系数的解释。
-
-
模型性能差异:
-
有无预测因子的模型比较:通过拟合包含和不包含某个预测因子的模型,并记录模型性能的变化来评估该预测因子的重要性。删除更重要的预测因子会导致更大的性能下降。
-
-
高级方法:
-
置换重要性算法:通过随机打乱某个预测因子的值,观察模型性能的变化来评估该预测因子的重要性。
-
SHAP(Shapley Additive Explanations):通过计算每个预测因子对模型输出的贡献来评估其重要性。
-
无论选择哪种方法来评估预测因子的重要性,我们都应谨慎解读结果;数据中的关联可能不反映因果关系(例如,“表2谬误”)。需要进行彻底的因果推断分析,以建立预测因子与结果之间的因果关系。
2.13 撰写并发表论文
完成上述步骤后已经开发出一个临床预测模型!现在是时候撰写论文,详细描述整个过程和结果了。为了确保论文涵盖所有重要方面,应使用TRIPOD报告指南和清单(或对于聚类数据集,使用TRIPOD Cluster)。
撰写和发表的要点
-
详细描述:
-
过程和结果:详细记录模型开发的每一步骤和结果。
-
模型方程:如果可能,报告完整的模型方程,以便于可重复性和独立的外部验证研究。
-
-
数据和代码共享:
-
软件代码:公开软件代码,以便他人可以复现模型。
-
数据:尽可能公开数据,但需注意保护隐私和伦理问题。
-
-
用户友好性:
-
模型的可访问性:确保模型对我们在第一步定义的用户是可访问的。实际上,许多已发表的模型由于缺乏模型系数、工具或使用说明,无法实际使用。
-
-
模型呈现方式:
-
简化方法:例如评分系统、图形评分图表、诺莫图等,这些方法在临床实践中更易于使用,但可能需要简化模型,如去除一些预测因子或将连续变量分类。
-
在线计算器:基于完整模型的在线计算器(例如,使用R中的Shiny构建的网页应用程序)可以避免信息损失,但需注意防止非目标用户的误用,特别是在模型未能显示临床价值的情况下(例如,在后续的外部验证中)。
-
-
用户需求:
-
与用户讨论:始终与用户讨论模型的呈现和实施方式,以满足他们的需求(在第一步中定义)。
-
3. 全流程示例
示例 | 复发型多发性硬化症(Relapsing-Remitting Multiple Sclerosis, RRMS) |
背景 | 多发性硬化症(Multiple Sclerosis, MS)是一种中枢神经系统的慢性炎症性疾病,临床病程高度变异。复发型多发性硬化症(RRMS)是最常见的形式,其特征是神经系统功能恶化(复发)后继以部分或完全恢复(缓解)。 这些波动给疾病的管理带来了重大挑战。一个预测工具可以帮助制定治疗决策。下面,我们描述了一个针对RRMS的预测模型的开发过程。简要概述了在逐步指南中遵循的程序,详细的分析和结果请参阅其他文献。 |
逐步模型开发 | 预测目标:预测RRMS患者在两年内是否会复发。 这样的预测可以帮助治疗决策; 如果复发风险高,患者可能会考虑加强治疗,例如使用更积极的疾病修饰药物,尽管这些药物可能有更高的严重不良事件风险,或者考虑干细胞移植。 |
团队组成 | 多学科团队:由临床医生、患者、流行病学家和统计学家组成的团队。 |
文献回顾 | 潜在预测因子:文献回顾确定了多个RRMS复发的潜在预测因子。 现有模型的局限性:现有预测模型的局限性包括缺乏内部验证、缺失数据处理不当和缺乏临床效用评估。这些缺陷影响了现有模型在临床环境中的可靠性和适用性。基于此,决定开发一个新的模型,而不是更新现有的模型。 |
结局变量 | 在RRMS患者中,两年内至少发生一次复发(二分类变量) |
预测因子选择 | 基于文献和专家意见:选择的预测因子包括年龄、扩展残疾状态量表得分、既往多发性硬化症治疗、上次复发以来的月数、性别、病程、既往复发次数和钆增强病变数量。选择的目标是在包括相关预测因子的同时,排除在临床实践中难以测量的因子。 |
数据来源 | 数据集:使用瑞士多发性硬化症队列(Swiss Multiple Sclerosis Cohort)的数据,这是一个前瞻性队列研究,密切监测RRMS患者。数据集包括935名患者共计1752个观察点,其中观察到302个事件。 |
样本量计算 | 样本量计算表明,最小样本量为2082名患者,而实际可用样本量为935名患者,这引发了可能的过拟合问题。 |
缺失数据处理 | 多重插补:使用多重插补方法填补缺失的协变量数据。预计在实际使用模型时不会出现缺失数据。 |
模型开发 | 贝叶斯逻辑混合效应模型:开发了一个贝叶斯逻辑混合效应预测模型,考虑了每个患者内的多个观察点。通过Laplace先验分布惩罚回归系数,以解决可能的过拟合问题。 |
模型评估 | 校准:通过校准图评估模型的校准能力。 区分能力:使用AUC评估模型的区分能力。通过boostrap校正乐观性,每个插补数据集创建500个自助样本。校正后的校准斜率为0.91,校正后的AUC为0.65,这表示模型具有中等的区分能力,与之前的RRMS模型相当或超过。 |
决策曲线分析 | 临床效用:进行了决策曲线分析,结果显示,在15%到30%的阈值范围内,使用模型信息决定是否加强治疗优于简单的策略(不加强治疗和对所有人都加强治疗)。因此,模型在实践中只有在认为避免复发的价值是更积极治疗的风险和不便的3.3到6.6倍时才有用。 |
预测因子的重要性 | 重要预测因子:根据估计的回归系数,较年轻的年龄、较高的扩展残疾状态量表得分和上次复发以来的较短时间与未来两年内复发的可能性较高相关。然而,没有可改变的预测因子。 |
模型实施 | 模型被实现为一个免费的R-Shiny网络应用程序,患者、医生和决策者可以估计在未来两年内至少发生一次复发的概率 |
代码公开 | 为了确保可重复性,所有代码已公开发布在GitHub上 |
图2 整体流程图
4. 结论
本教程提供了一份关于开发和验证临床预测模型的分步指南。需要注意的是,这并非完整或详尽的参考材料,也不旨在取代现有资源。其主要目的是介绍临床预测建模的关键方面。文章中提到的图2概述了所提议步骤的整体流程。原则上,文中描述的大多数步骤适用于传统统计方法和机器学习方法。但也存在例外,例如,机器学习模型的结构通常在开发过程中确定,因此在模型开发前并不明确,这可能导致在使用最终模型进行多重插补时(第七步)存在不可行性。此外,推荐的内部验证方法——自助法(bootstrapping),在某些机器学习方法中可能因计算复杂性而难以实现。部分机器学习方法可能还需额外的开发步骤以确保模型校准。文章指出,这些关键概念的阐述以及相关主题的讨论,可以帮助研究人员选择最适合的建模方法。同时,文章强调跨学科团队合作的重要性,团队应包括临床专家、方法学家以及未来模型的用户。此外,还提到透明报告和采用方法学指南在提升临床研究质量与相关性中的关键作用,这是研究者、审稿人、期刊及资助者的共同责任。 关注wx公众号:欣欣影像科研懒人包
文章来源:
Collins G S, Dhiman P, Ma J, Schlussel M M, Archer L, Van Calster B et al. Evaluation of clinical prediction models (part 1): from development to external validation BMJ 2024; 384 :e074819 doi:10.1136/bmj-2023-074819.