本文主要介绍一个评价分类器稳定性的指标:ROC阈值曲线。
对于一个已知的二分类结果(假设一共正,负两个类别),可以把结果的数据分成以下4类:A原来的正类被分为正类,B原来的正类被分为负类,C原来的负类被分为正类,D原来的负类被分为负类。
我们把A除以分类后的正类的数量称作真阳性率(TRP),把C除以分类以后的正类的数量称为假阳性率(FRP)。通俗来讲,就是分类以后,正类中被正确分类的比率称为TRP,正类中被错误分类的比率称为FRP。我们把TRP作为Y轴,把FRP作为X轴,可以画出图像:
这里,也许你会问这个图像是怎么画出来的呢?对于一个已知的分类结果我们只能得到一个点,也就是一个FRP和一个TRP啊?别急,我们再举一个例子:
在进行分类的过程中,有的分类器并不是直接给出分类的结果,而是给出类似概率这样的参考因子,然后我们再根据这些参考因子得到分类结果。拿朴素贝叶斯分类器作例子,当给定的训练集数据经过朴素贝叶斯分类器以后,我们能得到类似P(x1=a1|y=c1)(记为A)和