在上一篇文章里(《分类模型的评估(一)》),我们讨论了针对某一给定分类结果的评估指标,也就是查准率(Precision)、查全率(Recall)以及综合两者的F-score。
遗憾的是,这些指标并不能很好地评估一个二分类模型的效果,因为在人工智能领域,绝大多数模型都能产生好多份分类结果。关于这一点,可以将模型想象成一个吃鸡游戏的职业玩家,一个玩家可以玩很多局吃鸡比赛。那么对于每一局吃鸡游戏的结果,可以用最终排名或者杀敌数来评判。但是对于一个玩家,显然需要定义新的指标(综合考虑各局游戏的结果,给玩家一个统一的评判标准),比如平均杀敌数、吃鸡的比例等。
类似地,为了更好、更综合地评判一个模型的效果,学术界设计了新的评估指标。它们就是这篇文章将重点讨论的ROC曲线以及AUC。
一、逻辑回归
为了更加方便地讨论各个评估指标,我们首先来介绍一个十分常见的分类模型:逻辑回归。这个模型虽然是解决分类问题的模型,但是它的模型输出是 y i = 1 y_i = 1 yi=1的概率(与上一篇文章一样,我们使用变量 y i y_i yi来表示真实的结果, y ^ i \hat{y}_i y^i表示预测的结果。其中 y i = 1 y_i = 1 yi=1或者 y i = 0 y_i = 0 yi=0)。具体来讲,逻辑回归的模型公式如下,其中 β ^ \hat{\beta} β^是模型参数的估计值。
(1) P ^ ( y i = 1 ) = 1 1 + e − X i β ^ \hat{P}(y_i = 1) = \frac{1}{1 + e^{-X_i\hat{\beta}}}\tag{1} P^(yi=1)=1+e−Xiβ^1(1)
但这只是一个有关概率的预测值,而我们真正想要的是 y ^ i \hat{y}_i y^<