svc预测概率_预测模型的概率校准

最新推荐文章于 2024-01-14 21:00:43 发布

CHM单

最新推荐文章于 2024-01-14 21:00:43 发布

阅读量2.1k

点赞数 1

文章标签： svc预测概率

本文链接：https://blog.csdn.net/weixin_29306261/article/details/112230664

版权

1.背景

机器学习分为：监督学习，无监督学习，半监督学习(也可以用hinton所说的强化学习)等。在这里，先简要介绍一下监督学习从给定的训练数据集中学习出一个函数(模型参数)，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类(注意和聚类区分)问题，通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合，最优表示某个评价准则下是最佳的)，再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统(模型)。常见的有监督学习算法：回归分析和统计分类。

肿瘤预测模型是一个有监督学习模型，通过事先标注好的训练集,患者是否发生结局，患者信息等，训练一个COX模型，或者其他回归模型，在训练的模型基础上进行预测输出。在预测模型搭建过程中，由于抽样与正则化的原因，导致模型输出的概率值明显偏离真实的概率值。这时候我们称这些模型直接输出的概率值是定序值，而非定距数值，可比较大小，但其绝对值并无太多含义。那么如何将模型输出的prob校准到真实的逾期概率呢。使得经过校准后的概率变成逾期概率的意义。比如预测模型预测某个样本属于正类的概率是0.8，那么就应当说明有80%的把握认为该样本属于正类，或者100个概率为0.8的里面有80个确实属于正类。根据这个关系，可以用测试数据得到Probability Calibration curves。

假设我们考虑这样的一种情况：在二分类中，属于类别0的概率为0.500001，属于类别1的概率为0.499999。假若按照0.5作为判别标准，那么毋庸置疑应该划分到类别0里面，但是这个真正的分类却应该是1。如果我们不再做其他处理，那么这个就属于错误分类，降低了算法的准确性。如果在不改变整体算法的情况下，我们是否能够做一些补救呢？或者说验证下当前算法已经是最优的了呢？这个时候就用到了概率校准。

2.案例

如下表所示，

pred_prob为预测模型输出的预测概率predict probability

在数据集中预测概率为pred_prob的总数为ttl，例如第一行ttl的550意思预测概率为0.1的总例数为550条观测，其中有positive_n阳性例数，正例占比positive_ratio =positive_n/ttl

如上表，模型输出的pred_prob = 0.1 对应真实结局发生率 0.0255

模型解决了数据的排序问题【随着预测概率的增加，真实概率也在增加】，但从这个例子我们可以看出，模型预测与真实值之间出现了很大的差异。

那么

最低0.47元/天解锁文章

CHM单

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
svc预测概率_预测模型的概率校准

1.背景机器学习分为：监督学习，无监督学习，半监督学习(也可以用hinton所说的强化学习)等。在这里，先简要介绍一下监督学习从给定的训练数据集中学习出一个函数(模型参数)，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类(注意和聚类区分)问题，通过已有的训练样本(即已知数据及其对应的...
复制链接

扫一扫