目录
ROC曲线的作用
先看一下ROC的字面意思:ROC曲线即接收者操作特征曲线(receiver operating characteristic curve)。
该曲线是一种坐标图式的分析工具,有两大作用:
(1) 选择最佳模型、舍弃次佳的模型。 (2) 在同一模型中设定最佳阈值。
ROC曲线通常用于对分类器性能的评估,之所以说通常,是因为我只遇到过分类器的情况,但不排除其他情况。
首先了解一下相关的基础概念。
相关概念
分类模型(又称分类器,或诊断)是将一个实例映射到一个特定类的过程。
ROC分析的是二元分类模型(我看到的资料是这么写的,后面的描述也都是基于二元分类器,多元分类器暂未考虑),也就是输出结果只有两种类别的模型,例如:(阳性/阴性)(有病/没病)(垃圾邮件/非垃圾邮件)(敌军/非敌军)。
当“输出结果(预测结果)”是一个连续值时,类与类的边界必须用一个阈值来界定。举例来说,用血压值来检测一个人是否有高血压,测出的血压值是连续的实数(从0~200都有可能),要区分是否为高血压,势必需要一个阈值,阈值以上便诊断为有高血压,阈值未满者诊断为无高血压。二元分类模型的个案预测有四种结局:
假设阳性为患病,阴性为没有患病。
真阳性(TP):诊断为有,实际上也有高血压。
伪阳性(FP):诊断为有,实际却没有高血压。
真阴性(TN):诊断为没有,实际上也没有高血压。
伪阴性(FN):诊断为没有,实际却有高血压。
这四种结局可以画成2 × 2的混淆矩阵: