ROC(Receiver operating characteristic)曲线是True positive rate – False positive rate曲线:
对于一个二分类(是/否)分类器而言,根据对测试集的分类结果得到一个(x,y)点,调整threshold阈值大小,再进行实验,就能得到新的(x,y)点。连续地调整阈值,就可以作出ROC曲线。这里的阈值是指分类器判定是或否的依据,比如两个向量的距离大于th则认为不同类,小于th则认为同类,th即为这个阈值。
显然,当th无穷大时,即全部判断是同类,那么会得到(1,1)点。当th无穷小时,即全部判断不是同类,那么会得到(0,0)点。所以,th逐渐变大,样本点会从(0,0)逐渐移动到(1,1)点。
对于随机预测(随机输出是/否),样本点会从(0,0)线性移动到(1,1)点,即样本点一直在(0,0)到(1,1)的直线上。
对于一个分类器,越靠近(0,1)点越好,说明没有负例错判成正例,同时没有正例错判成负例。同理,越靠近(1,0)点越差,说明所有负例都错判成正例,同时所有正例都错判成负例。在(0,0)-(1,1)线左上方说明该分类器优于随机猜测,右下方说明该分类器比不上随机猜测。
EER(equal error rate)是等错误率,即是true positive rate = true negative rate
所以true positive rate = true negative rate = 1 – false positive rate即ROC曲线和y=1-x即x+y=1曲线的交点的纵坐标值即为EER。考虑到th总小到大增大过程中,ROC曲线从(0,0)点到(1,1)点,所以一般情况下EER是唯一的。
下图是一个例子,括号中的数是EER: