说清楚了ROC曲线的映射关系TPR=f(FPR)以后,我们来结合逻辑斯蒂回归来对ROC曲线进行说明。
假如现在有一个二分类问题,是对来就诊的病人进行一个检查。如果检测结果数值很高,则患病的概率就很高;反之则患病的概率很低。现在我们收集到了7为患者的检测结果,其中367号患者是真的患病了(y=1),1245则没有患病(y=0)。
现在我们对其进行逻辑回归,得到了图中的逻辑回归曲线。如我们前面说过的,这个曲线代表的是P(y=1|x),也就是当特征取值为x的时候,样本呈阳性的概率是多少。比如在下图中,模型就认为7号样本呈阳性的概率非常高,已经很接近1了;而1号样本呈阳性的概率就相当低,接近于0
接下来的问题,就是模型将如何设定判别点,也就是说,当检测结果x超过多少的时候,我们的模型会判断患者患病。
最严厉的判别界
最严厉的做法,是将检测结果的门槛设为非常大,这样所有的患者都会被判作是阴性。
在这样的情况下,如果我们计算ROC曲线的横纵坐标,
l 纵坐标TPR=TP/(TP+FN),因为全部的样本都被判为了阴性,因此TP=0,TPR也就是0
l 横坐标FPR=FP/(TP+FN),因为全部的样本都被判为了阴性,因此FP=0,FPR也就是0
也就是说,如果我们将判别界设为一个很大的值,那么对应在ROC曲线上应该是(0,0)点,任何比这个判别界严格的判别界(也就是判别界继续向右移动),ROC曲线上都是0点,不会再变化了。
最松弛的判别界
最松弛的做法,是将检测结果的门槛设为非常小,比如只要检测结果大于零就判作是阳性,这样所有的患者都会被判作是阳性。
在这样的情况下,如果我们计算ROC曲线的横纵坐标,
l 纵坐标TPR=TP/(TP+FN),因为全部的样本都被判为了阳性,因此FN=0,TPR=TP/TP=1
l 横坐标FPR=FP/(FP+TN),因为全部的样本都被判为了阴性,因此TN=0,FPR=FP/FP=1
也就是说,如果我们将判别界设为一个很小的值,那么对应在ROC曲线上应该是(1,1)点,任何比这个判别界松弛的判别界(也就是判别界继续向左移动),ROC曲线上都是(1,1)点,不会再变化了。
好了,最严格的判别界对应的是(0,0)点,最松弛的判别界对应的是(1,1)点,接下来就是各个位于中间的判别界,在ROC上对应的点是多少了。