关于区间预测在医学预测模型中应用的一点思考

预测模型的开发与应用研究

于 2024-06-24 22:52:35 发布

阅读量455

点赞数 4

分类专栏：预测模型研发管理文章标签：机器学习区间预测

本文链接：https://blog.csdn.net/skyskytotop/article/details/139928281

版权

26 篇文章 6 订阅

订阅专栏

什么是区间预测
区间预测是指在给出确切预测值的同时，还提供预测值的可能范围，称为预测区间。与置信区间是不同的概念。区间预测主要用于结局是连续变量的情况，例如预测房价或股票价格。通过提供一个范围，区间预测帮助决策者更好地管理风险，制定合理的策略和计划。构建预测区间有五种方法，即经典方法、最短预测区间、分位数方法、最高密度区域和连续HDR。
区间预测在医学中的应用有限

医学中常用的结局变量多为分类变量。对于结局变量是无序（多）分类变量，目前的结果呈现方式是给出具体的类别或给出类别的可能概率。在此基础上，再给出预测区间，对于辅助决策功能有限：首先，直接给出类别的情况下无需区间预测；其次，在给出预测概率的情况下，如果模型效能一般，预测区间也不够准确；如果模型效能较好，则可以选择直接给出预测概率。
然而，当结局变量为有序多分类变量时，例如使用排名量表作为预后结局指标。最近接触的一个分析案例是将有序多分类结局转换为二分类变量，然后使用逻辑回归进行建模。这种情况下，如果采用区间预测可能是一种更好的预测结果的呈现形式，更加便于辅助决策。另外一种可能的使用情况是COX分析，这种分析形式以时间为主要预测对象，使用区间预测呈现出预测生存时间的范围，也是使用者非常容易接受和理解的预测结果呈现形式。

区间预测对模型区分度的要求高
我们之前讨论过预测模型的结果呈现形式的区别。简要来说，直接预测类别的形式，对模型的效能要求较高，区分度是最重要的指标；而给出预测概率的形式对模型性能要求中等，但是要求概率分布符合实际的概率分布，所以校准度是对重要的指标，可以通过后概率校正和选择决策阈值等方式，使其在性能有限的情况下最大限度地发挥功能。而区间预测也是对模型效能要求较高，模型区分度应该是重点考察的指标，构建预测模型时，应尽可能提高模型的性能，以获得可靠的预测区间。
Python和R中的实现

Python和R中都可以轻松实现区间预测。python实现大家可以了解MAPIE这个库，MAPIE是一个开源的Python库，兼容scikit-learn库中的所有模型，可以很方便地与其机器学习模型结合使用；
而在R 语言中，tidypredict库（仅lm和glm）、RFpredInterval库（适用树形的机器学习模型）和probably库等都提供了一定形式的区间预测函数。
以上只是略略的考察，有待于仔细的验证。