auc

最新推荐文章于 2024-04-23 17:56:56 发布

alexboy

最新推荐文章于 2024-04-23 17:56:56 发布

阅读量185

点赞数

本文链接：https://blog.csdn.net/alexboy/article/details/84049686

版权

[list]
[*]1.最直观的，根据AUC这个名称，我们知道，计算出ROC曲线下面的面积，就是AUC的值。事实上，这也是在早期Machine Learning文献中常见的AUC计算方法。由于我们的测试样本是有限的。我们得到的AUC曲线必然是一个阶梯状的。因此，计算的AUC也就是这些阶梯下面的面积之和。这样，我们先把score排序(假设score越大，此样本属于正类的概率越大)，然后一边扫描就可以得到我们想要的AUC。但是，这么做有个缺点，就是当多个测试样本的score相等的时候，我们调整一下阈值，得到的不是曲线一个阶梯往上或者往右的延展，而是斜着向上形成一个梯形。此时，我们就需要计算这个梯形的面积。由此，我们可以看到，用这种方法计算AUC实际上是比较麻烦的。
[*]2.一个关于AUC的很有趣的性质是，它和Wilcoxon-Mann-Witney Test [url]http://en.wikipedia.org/wiki/Wilcoxon_signed-rank_test[/url]是等价的。这个等价关系的证明留在下篇帖子中给出。而Wilcoxon-Mann-Witney Test就是测试任意给一个正类样本和一个负类样本，正类样本的score有多大的概率大于负类样本的score。有了这个定义，我们就得到了另外一中计算AUC的办法：得到这个概率。我们知道，在有限样本中我们常用的得到概率的办法就是通过频率来估计之。这种估计随着样本规模的扩大而逐渐逼近真实值。这和上面的方法中，样本数越多，计算的AUC越准确类似，也和计算积分的时候，小区间划分的越细，计算的越准确是同样的道理。具体来说就是统计一下所有的 M×N(M为正类样本的数目，N为负类样本的数目)个正负样本对中，有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的 score相等的时候，按照0.5计算。然后除以MN。实现这个方法的复杂度为O(n^2)。n为样本数（即n=M+N）
[*]3.第三种方法实际上和上述第二种方法是一样的，但是复杂度减小了。它也是首先对score从大到小排序，然后令最大score对应的sample 的rank为n，第二大score对应sample的rank为n-1，以此类推。然后把所有的正类样本的rank相加，再减去正类样本的score为最小的那M个值的情况。得到的就是所有的样本中有多少对正类样本的score大于负类样本的score。然后再除以M×N。即
[img]http://dl.iteye.com/upload/attachment/572329/8c19904f-6d7b-3205-a090-badf5f32e4b6.jpg[/img]

[/list]

备注：
1.自己实现过1的面积计算方法，当样本比较大的时候（百万+），得到的值基本和2是一样的。
2.mahout里面的org.apache.mahout.classifier.evaluation用的就是3的计算方法。不知道原理的话，看起来还真是头大。原理很重要啊。。。。。。
3.关于那个为什么和Wilcoxon-Mann-Witney Test近似的理解：
ROC上的点的坐标为(FPR,TPR)
sensitivity or true positive rate (TPR)
eqv. with hit rate, recall
TPR = TP / P = TP / (TP + FN)
false positive rate (FPR)
eqv. with fall-out
FPR = FP / N = FP / (FP + TN)
感性的认识，这里TPR其实是=1的概率，FPR其实是=0的概率。ROC上的点实际上描述了=1,=0的概率大小。
一个随机的模型，随意抽一个样本，认为=1，=0的概率相等，都是0.5，这样就有了y=x的那条对角线，也就是baseline。整个事件的概率就是下面的面积=0.5
一个较好的模型，对=1的识别率比较好，=1的判断概率比=0的大，所以在y=x上方。也就是整个预测=1正确的概率>0.5
如果有时候得到了<0.5模型，不要泄气，反过来用就行了。
从概率的角度来理解AUC，也很容易看出，AUC的值和预测数据中的样本正负比例基本无关了，这也是为什么AUC比MAP,RMSE,precision，recall，F1等这些数值要客观一些的原因。

ref:
[url]http://en.wikipedia.org/wiki/Receiver_operating_characteristic[/url]

alexboy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
auc

[list][*]1.最直观的，根据AUC这个名称，我们知道，计算出ROC曲线下面的面积，就是AUC的值。事实上，这也是在早期Machine Learning文献中常见的AUC计算方法。由于我们的测试样本是有限的。我们得到的AUC曲线必然是一个阶梯状的。因此，计算的AUC也就是这些阶梯下面的面积之和。这样，我们先把score排序(假设score越大，此样本属于正类的概率越大)，然后一边扫描就...
复制链接

扫一扫

auc

“相关推荐”对你有帮助么？