构建临床预测模型策略的思考

最新推荐文章于 2024-05-23 10:08:30 发布

预测模型的开发与应用研究

最新推荐文章于 2024-05-23 10:08:30 发布

阅读量901

点赞数

分类专栏：预测模型构建和评价文章标签： sql 数据库 database

本文链接：https://blog.csdn.net/skyskytotop/article/details/123223185

版权

预测模型构建和评价专栏收录该内容

19 篇文章 2 订阅

订阅专栏

构建临床预测模型策略的思考

两个策略

无论研究还是应用，一个医学预测模型是否有存在的价值，取决于其预测效能是否高于已经存在的评估工具。医学预测模型的效能普遍较低，多在6.0~8.0之间，可能的原因：

医学数据预测指标（X）代表性不佳，
样本量不足，
训练数据集代表性差(或数据不均匀)，
算法不够先进等。
在穷尽了以上能够改善模型效能的方法之后，还可以做的就是变化构建模型的策略。这里提供两个可能的策略方面的思考：
策略1：不断细分人群并训练模型，直到模型预测效能达到预期。构建预测模型时常会采用公用的数据库，虽然是同样的数据集，但是会产生多个不同的预测模型，当大家观察这些预测模型的不同时，会发现这些预测模型是针对不同的人群，年轻的和年老的，不同病理类型的，不同性别的，等等，比如, 某个食管癌的预测模型数据首先细分为非化疗患者，然后限定患者AJCC总体分期为I-III期的患者（舍弃了第IV期的患者）。这样做就为了获得较高的预测模型效能，虽然预测模型的效能提高了，但是限制了预测模型的应用范围却降低了, 导致部分亚群患者被排除在预测模型研究之外，此外，人群的不断细分也导致了样本量的不断下降，同样对模型的外推行产生了潜在的不良影响。
策略2：将策略1中用来分组变量作为预测因素之一，更多的预测因素也可以提高模型的预测效能。还是上面食管癌模型的例子，可以将是否进行了化疗和AJCC分期（也是I-III期）作为预测变量来构建预测模型。这个策略的人群适用范围增加了，比如，进行过化疗的患者也可以使用这个模型，但是还是排除了部分患者，比如IV期的患者。样本量虽然增加了，但是样本的多样性也增加了，后者可能会对模型的表现产生不良的影响。

讨论

.两种策略构建的模型的预测效能哪个更高？大家首先想到应该是策略2，策略2行不通，才转而采用策略1，鉴于策略1的普遍采用，所以估计来说策略1对于模型预测效能的提高更有效果。没有专门的比较过，可能不好下结论。
内部验证效能和外部验证效能，哪个更准？许多的模型没有在外部数据集上进行验证，个人认为哪个策略更优，还是要在外部验证集上来比较，单纯的内部验证不能作为最后的结论。有人会认为内部验证集上的表现和外部验证集上的表现是一致的，从经验来看其实不一定，特别是模型预测效能相差不多的时候。
线性算法和非线性算法对策略的影响。也是需要进行一下实验的验证，才能下结论。