构建临床预测模型策略的思考
两个策略
无论研究还是应用, 一个医学预测模型是否有存在的价值,取决于其预测效能是否高于已经存在的评估工具。医学预测模型的效能普遍较低,多在6.0~8.0之间,可能的原因:
-
医学数据预测指标(X)代表性不佳,
-
样本量不足,
-
训练数据集代表性差(或数据不均匀),
-
算法不够先进等。
在穷尽了以上能够改善模型效能的方法之后,还可以做的就是变化构建模型的策略。这里提供两个可能的策略方面的思考: -
策略1: 不断细分人群并训练模型,直到模型预测效能达到预期。构建预测模型时常会采用公用的数据库,虽然是同样的数据集,但是会产生多个不同的预测模型,当大家观察这些预测模型的不同时,会发现这些预测模型是针对不同的人群, 年轻的和年老的, 不同病理类型的,不同性别的,等等,比如, 某个食管癌的预测模型数据首先细分为非化疗患者,然后限定患者AJCC总体分期为I-III期的患者(舍弃了第IV期的患者)。 这样做就为了获得较高的预测模型效能,虽然预测模型的效能提高了,但是限制了预测模型的应用范围却降低了, 导致部分亚群患者被排除在预测模型研究之外,此外,人群的不断细分也导致了样本量的不断下降, 同样对模型的外推行产生了潜在的不良影响。
-
策略2:将策略1中用来分组变量作为预测因素之一,更多的预测因素也可以提高模型的预测效能。 还是上面食管癌模型的例子,可以将是否进行了化疗和AJCC分期(也是I-III期)作为预测变量来构建预测模型。这个策略的人群适用范围增加了,比如,进行过化疗的患者也可以使用这个模型,但是还是排除了部分患者,比如IV期的患者。样本量虽然增加了,但是样本的多样性也增加了,后者可能会对模型的表现产生不良的影响。
讨论
- .两种策略构建的模型的预测效能哪个更高?大家首先想到应该是策略2, 策略2行不通,才转而采用策略1,鉴于策略1的普遍采用,所以估计来说策略1对于模型预测效能的提高更有效果。没有专门的比较过,可能不好下结论。
- 内部验证效能和外部验证效能,哪个更准? 许多的模型没有在外部数据集上进行验证,个人认为哪个策略更优,还是要在外部验证集上来比较,单纯的内部验证不能作为最后的结论。有人会认为内部验证集上的表现和外部验证集上的表现是一致的,从经验来看其实不一定,特别是模型预测效能相差不多的时候。
- 线性算法和非线性算法对策略的影响。 也是需要进行一下实验的验证,才能下结论。