一、相关概念
ROC的全名叫做Receiver Operating Characteristic,其主要分析工具是一个画在二维平面上的曲线——ROC curve。平面的横坐标是false positive rate(FPR),错误率。纵坐标是true positive rate(TPR),真值率。
AUC(Area Under roc Curve)是一种用来度量分类模型好坏的一个标准。为ROC曲线所覆盖的区域面积。
二、来源
一些实际的问题对度量标准提出了新的需求。特别的,现实中样本在不同类别上的不均衡分布(class distribution imbalance problem)。使得准确率(accuracy)这样的传统的度量标准不能恰当的反应分类器的performance。举个例子:测试样本中有A类样本90个,B 类样本10个。分类器C1根据阈值把所有的测试样本都分成了A类,分类器C2根据阈值把A类的90个样本分对了70个,B类的10个样本分对了5个。则C1的分类精度(准确率)为 90%,C2的分类精度(准确率)为75%。但是,显然C2更有用些。另外,在一些分类问题中犯不同的错误代价是不同的(cost sensitive learning)。这样,默认的分类阈值的传统做法也显得不恰当了。
为了解决上述问题,人们从医疗分析领域引入了一种新的分类模型performance评判方法——ROC分析。