AUC的解释

最新推荐文章于 2022-03-09 22:06:42 发布

idatamining

最新推荐文章于 2022-03-09 22:06:42 发布

阅读量2.5k

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

		预测
		1	0
实	1	d, True Positive	c, False Negative	c+d, Actual Positive
际	0	b, False Positive	a, True Negative	a+b, Actual Negative
		b+d, Predicted Positive	a+c, Predicted Negative

如果不用模型，我们就根据原始数据的分布来指派，随机地把客户归为某个类别，那么，你得到的True Positive对False Positive之比，应该等于Actual Positive对Actual Negative之比（你做得跟样本分布一样好）——即，d/b=(c+d)/(a+b)，可以有(d/c+d)/(b/a+b)=1，而这正好是Sensitivity/(1-Specificity)。在不使用模型的情况下，Sensitivity和1-Specificity之比恒等于1，这就是45度线的来历。一个模型要有所提升，首先就应该比这个baseline表现要好。ROC曲线就是来评估模型比baseline好坏的一个著名图例。这个可能不够直观，但可以想想线性回归的baseline model：

如果不用模型，对因变量的最好估计就是样本的均值（上图水平红线）。绿线是回归线（模型），回归线与水平线之间的偏离，称作Explained Variability，就是由模型解释了的变动，这个变动（在方差分析里，又称作model sum of squares, SSM）越大，模型表现就越好了（决定系数R-square标准）。同样的类比，ROC曲线与45度线偏离越大，模型的效果就越好。最好好到什么程度呢？

在最好的情况下，Sensitivity为1（正确预测到的正例就刚好等于实际的正例总数），同时Specificity为1（正确预测到的负例个数就刚好等于实际的负例数），在上图中，就是左上方的点(0,1)。因此，ROC曲线越往左上方靠拢，Sensitivity和Specificity就越大，模型的预测效果就越好。同样的思路，你还可以解释为什么ROC曲线经过点(0,0)和(1.1)，不提。

idatamining

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AUC的解释

预测 10 实1d, True Positivec, False Negativec+d, Actual Positive际0b, False Positivea, True Negativea+b, Actual Negative
复制链接

扫一扫