改善临床预测模型效能的额外方法

最新推荐文章于 2024-04-18 03:18:58 发布

预测模型的开发与应用研究

最新推荐文章于 2024-04-18 03:18:58 发布

阅读量1.5k

点赞数 1

分类专栏：预测模型研发管理文章标签： python flutter 机器学习

本文链接：https://blog.csdn.net/skyskytotop/article/details/121420170

版权

预测模型研发管理专栏收录该内容

19 篇文章 6 订阅

订阅专栏

   医学预测模型的数据特点是，数据量较小，多在1000以内；数据有标签属于“有监督学习”范畴；结局变量通常为分类数据，比如，疾病的结局是否发生，所以模型多属于分类模型；数据结构相对简单，以一维数据为主（少数模型处理二维的图片数据）。如何根据医学预测模型的特点来提升模型的预测效能，是关系到医学预测模型是否可以临床应用的关键。特别指出的是，模型的预测效能体现在两个方面，一方面是指模型在内部测试集中的效能，反映了构成模型的基本元素是否合适，比如预测因素个数和质量，模型所用的算法是否充份拟合数据等；另一方面是指模型在外部测试数据集中的效能，反应了模型的泛化能力，决定了其是否可以进行更大范围的推广。
  因为多数医学预测模型的目的是将患者分为发生结局和不发生结局两类，是分类模型，所以临床预测模型最关键的效能参数在逻辑回归是C-统计量，通常在0.6~0.8之间。扩大数据集的规模，增加预测参数的数量或提供更好的预测参数是目前提升预测效能参数的根本的方法，除此之外，如果能结合其他的方法来提升临床预测模型的效能，可能会达到更好的一个提升预测效能的效果。 综合各方面资料结合笔者的理解，介绍如下：

**1. 改善数据的不平衡。**收集数据过程中，控制重要参数的不同层次患者数据的数量使每一层都有足够的人数来进行模型拟合，否则虽然整体数据集的量以及结局时间的发生量都符合要求（有研究指出正负结局发生的数量最低限度是100），但是数据集中某个层次中的患者数据量可能是不足的，这样模型对于这个层次的人群的预测效能就会偏低，比如TNM分期是预测某肿瘤预后最重要的参数，在构建新的预测模型并为之收集临床数据的过程中要注意各类TNM分期各个类别是否收集到了足够的患者数据，否则很可能会导致构建的临床预测模型预测效果对某TNM分期子类的患者效能不佳；再比如年龄是某肿瘤预后的重要相关参数，数据集中某个年龄层数据的不足会导致模型对这部分人群的预测效能不佳。
**2. 避免模型“欠拟合”，即模型未能充分拟合数据趋势。**比如某预测变量和结局变量之间的关系是“先下降后上升”的曲线关系，如果用线性的算法去拟合，就会产生“欠拟合”的现象。避免模型欠拟合的方法，比如上面的例子，可以向方程中添加多项式（变量的2次方项），形成一个更加复杂的方程；随着更强大的算法的出现，更直接地解决模型欠拟合的方法是选择新的算法，比如随机森林算法、Xgboost算法等，通常会获得较线性的逻辑回归算法更好的预测效能。
3. 避免模型“过拟合”，即模型适应新的未知数据的能力转而下降的现象。目前的避免模型过拟合的方法是“正则化”。正则化方法通常有两种，1.使用带有正则化参数的模型，比如相对于线性逻辑回归模型，可以采用岭回归或Lasso回归等带有正则化参数的模型；2.“提前停止”的正则化，过拟合的发生是模型对于训练数据过度地进行了拟合，所以在模型训练过程中对模型效能参数进行监控，一旦发现模型的效能参数开始下降，立刻停止训练，就实现了防止模型过拟合现象。
**4. 尝试不同预测参数的组合形成新的更加具有相关性的预测参数。**如果不能提供更具有相关性的参数，作为替代，利用现有模型参数之间的组合（加减乘除等）有可能获得与结局变量更相关的参数，进而提升模型的预测性能，比如，许多模型会避免用身高和体重作为预测参数，而是用BMI来替代，因为其与疾病的结局相关性更好。
5. 数据清理，而去除数据中的“噪音”。 处理缺失的数据是一个重要的挑战，因为临床数据集本来规模就不大，删除缺失数据的方法就不可行，各种的数据填充的方法是更好的选择，比如多重插补法、贝叶斯或随机森林插补法等。
**6. 特征缩放，也称作标准化和归一化。**特征缩放解决的是多个变量之间的尺度相差过大的问题，其可能过会对算法的效能造成不良的影响，有的资料说某些算法不需要特征缩放（比如随机森林），有些算法要求进行特征缩放（比如神经网络）。笔者在实践过程中发现，特征缩放对模型在内部验证数据集中的表现几乎没有影响，却对其外部验证数据集中的表现有极大的影响（表1），所以笔者认为特征缩放有助于提高模型在外部验证数据集中的表现，也就是模型的泛化能力，其现实意义在于，我们往往根据SEER数据库等国外开放数据库构建预测模型，但是用国内的数据进行外部验证的时候却发现其效能“骤降”，导致无法在国内应用，而特征缩放可能是一个改善的办法。
临床预测模型的数据有其特点，资料的介绍的提高预测效能的方法有些适用，有些不适用，有的对模型在内部验证集的表现没有影响，却对模型在外部验证集中的表现有大的影响，需要在实践中不断地探索。

在这里插入图片描述

预测模型的开发与应用研究

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
改善临床预测模型效能的额外方法

医学预测模型的数据特点是，数据量较小，多在1000以内；数据有标签属于“有监督学习”范畴；结局变量通常为分类数据，比如，疾病的结局是否发生，所以模型多属于分类模型；数据结构相对简单，以一维数据为主（少数模型处理二维的图片数据）。如何根据医学预测模型的特点来提升模型的预测效能，是关系到医学预测模型是否可以临床应用的关键。特别指出的是，模型的预测效能体现在两个方面，一方面是指模型在内部测试集中的效能，反映了构成模型的基本元素是否合适，比如预测因素个数和质量，模型所用的算法是否充份拟合数据等；另一方面是指模...
复制链接

扫一扫