基本术语
- 真阳性(TP, true positive):预测为真,实际上也为真。
- 伪阳性(TN, true negative):预测为真,实际却为假。
- 真阴性(FP, false positive):预测为假,实际上也为假。
- 伪阴性(FN, false negative):诊断为假,实际却为真。
1、真正率(TPR, true positive rate),即命中率
TPR = TP / P = TP / (TP+FN)
2、假真正率(FPR, false positive rate),即错误命中率、假警报
FPR = FP / N = FP / (FP + TN)
3、准确度(ACC, accuracy)
ACC = (TP + TN) / (P + N)
roc空间
ROC空间将伪阳性率(FPR)定义为 X 轴,真阳性率(TPR)定义为 Y 轴。也即是一个(0,0)到(1,1)的二维坐标空间。
例如:
一个二元分类器,对于一个样本数为N的样本空间,每个样本x被预测为真(1)的概率为P(x)。即选择一个阈值P(0),
使得P(x)>P(0)的样本被预测为真(1),且样本数为m。而实际该样本空间中,表现为真(1)的个数为n。这样就得到,
TPR = m/n,FPR = (N-m)/(N-n),即在roc空间中,该点表示为(m/n,(N-m)/(N-n))。
roc曲线
根据上述描述关于roc空间的原理,通过改变不同的阈值P(k),k=0,1,2···k。根据
P(x)>P(k)得到m(k),即可得到点(m(k)/n,(N-m(k))/(N-n)),从而在roc空间里绘出roc曲线。