ROC曲线详解以及在R中的实现

qq_37353305

已于 2022-01-21 11:02:18 修改

阅读量7k

点赞数 5

CC 4.0 BY-SA版权

分类专栏： ML with Python 文章标签： r语言机器学习统计学逻辑回归生物信息学

于 2022-01-20 09:11:54 首次发布

本文链接：https://blog.csdn.net/qq_37353305/article/details/122552363

ML with Python 专栏收录该内容

5 篇文章

订阅专栏

本文详细介绍了ROC曲线和AUC值的概念及应用，包括混淆矩阵的解读、ROC曲线的绘制方法及其背后的概率解释。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ROC & AUC: Theory and Implementation in R

数据
confusion matrix
通俗解释
ROC 曲线和 AUC 值
ROC Plot with R
ROC 的概率解释 (Theory)

数据

我们先从数据和分类器的角度来解释ROC曲线。假设我们有一组数据 $x_i,y_i)_{i=1}^{P+N}$ ， $y_i$ 是二元的 true label，取值 positive 或者 negative。我们还有一个已经训练好的分类器 $\phi：\operatorname{support}(x)\rightarrow [0,1]$ 。给定一个阈值 $0 < d < 1$ ，通过 $\phi$ 得到的预测为
$\hat{y}_i=\left\{\begin{array}{ll}\text{positive} &\phi(x_i)\geq d\\ \text{negative}& \text{o.w.}\end{array}\right.$ 通过比较预测 $\hat{y}_i$ 和真实 label $y_i$ ，我们可以创建下面的 contingency table，常被称为 confusion matrix：

confusion matrix

		Prediction		Total	Measure
		positive	negative	Total	Measure
True Label	positive	TP	FN	P	TPR=TP/P
True Label	negative	FP	TN	N	FPR=FP/N
Total		P'	N'	N+P
Measure		FDR=FP/P'	NPV=TN/N'

confusion matrix 中的所有值都取决于三个要素：真实数据，分类器 $\phi$ ，还有阈值 $d$ 。

通俗解释

我们以去医院检测癌症的病人为例。这时候，医院的诊断工具即为分类器：

TP：有病而且被证实。
FN：有病没检测出来。
FP：好好的被误诊了。
TN：认定没病，确实也没病。
TPR：真阳率，反映的是检测能力，即敏感性。TPR 越高说明检测越敏感，天网恢恢疏而不漏，有病的都别想逃。
FPR：假阳率，FPR 越高说明误诊率越高。即宁可错杀一千不可放过一个，没病的也别想走。
FDR：伪阳率，FDR 高说明检测很不准确。抓了很多，实际上真正有病的并不多。
NPV：真阴率，绝不冤枉一个好人。

Remark：

FDR 的准确定义是一类错误率的期望，即 $\mathrm{E}[\frac{\text{FP}}{\text{P'}}]$ ，它对统计上特别是 multiple testing 方面非常重要。
TPR 和 FPR 这两个指标结合起来可以判断诊断的好坏。一个好的诊断，应该要能将所有的病例揪出来，同时不误诊，不给健康的人造成心理上的伤害。如果能做到这两点，那我们有 TPR = 1，FPR = 0。但现实中要平衡这两点不是那么容易。因为揪出病例需要对病毒非常敏感，然而太敏感的话则容易误诊。

ROC 曲线和 AUC 值

我们已经说明，confusion matrix 是由分类器，数据以及阈值 $d$ 决定的。给定数据和分类器 $\phi$ 后，TP，TPR，FDR 这些数值仅仅由 $d$ 决定。每给定一个 $d$ ，我们可以得到对应的 $(\text{TPR(d),FPR(d)})$ 。遍历 $d\in[0,1]$ ，把 $(\text{TPR(d),FPR(d)})$ 画出来得到的即是 ROC 曲线，横轴为 FPR，纵轴为 TPR：
在这里插入图片描述
具体画法可以参考这个动图：

(gif 来源于https://github.com/dariyasydykova/open_projects/blob/master/ROC_animation/animations/cutoff.gif)

当然还有另外一种画法：把数据按 $\phi(x_i)$ 由大到小排序。然后遍历排好序的数据，如果该样本真实标签为 positive，垂直向上走 $1 / P$ ，反之水平向右走 $1 / N$ 。如此遍历完样本后也可以得到ROC曲线：
在这里插入图片描述
(gif 来源于 http://mlwiki.org/index.php/ROC_Analysis)

而我们常说的 AUC，即是 ROC 曲线围成的右下部分的面积。

ROC 曲线越接近左上角 $(0, 1)$ 这个点，或者说 AUC越大，说明分类器效果越好。

试想，一个完美的 (Oracle) 分类器 $\phi$ 应该能把所有阳性病人都映射到 $1$ 上 (即认为这个人得病的概率为100%)，同时把所有健康者映射到 $0$ 上，i.e.,
$\phi(x_i)=\left\{\begin{array}{ll}1&\text{if } y_i \text{ is positive}\\0&\text{if } y_i \text{ is negative}\end{array}\right.$ 这个时候，对于任意阈值 $d\in(0,1)$ ，显然 TPR 总是 1，而 FPR 总是 0，对应的 ROC曲线即是连接左上角地正方形，AUC = 1，即下图的 perfect classifier：
在这里插入图片描述
(图片来源于 wiki: https://en.wikipedia.org/wiki/Receiver_operating_characteristic#Basic_concept)

虽然我们几乎不可能得到一个测试集上的完美分类器，但我们却可以轻而易举地得到训练集上的完美分类器，不是吗？

ROC Plot with R

我们使用 R 中的 package: ROCR 来画图。ROCR 是 R 中用来画 ROC curve 最常用的包。我们先生成一组随机数据， $x$ 高斯， $y$ 是线性 logistic model 来的：

# packages
library(ROCR) # ROC analysis
library(magrittr) # pipe operator

# seed
set.seed(1000)

# DGP
n <- 200
x <- n %>% 
  '*'(50) %>%
  rnorm(mean = 0, sd = 1) %>% 
  matrix(data = ., nrow = 200)
w <- x[,1:3] %*% c(0.5,0.3,-0.4) - 0.1
prob <- 1/(1+exp(-w))
y <- rbinom(n = n, size = 1, prob = drop(prob))
dat <- data.frame(y, x)

把数据分成训练和测试集：

# split data into train and test
selct <- sample(1:n, size = 0.5*n, replace = FALSE)
train <- (1:n) %in% selct
test <- !train

训练集上拟合 logistic 模型：

# fit logistic model
model <- glm(y ~ X1 + X2 + X3 + 1, data = dat, subset = train, 
                   family = binomial(link = "logit"))
summary(model)

预测：(记住，一定要加 response。)

# predict
prdict <- predict(model, newdata = dat, type="response")

用 ROCR 包画图：

# pre
pred <- prediction(predictions = prdict[test], labels = dat$y[test])
roc <- performance(pred,"tpr","fpr")
auc <- performance(pred, measure = "auc")@y.values[[1]]

# plot
plot(roc, colorize = F)
cat('AUC of the model on test data:', auc)

在这里插入图片描述
auc 为 0.611，效果很一般。auc = 0.5 的话说明分类器和乱分 (random classifier) 没有区别。

ROC 的概率解释 (Theory)

我们从 two distribution test 出发。假设有两个随机变量 $X$ 和 $Y$ ，他们的分布函数分别为 $F_X$ 和 $F_Y$ 。我们想知道 $X$ 和 $Y$ 的分布是不是有差异的，即 $H_0: F_X=F_Y$ against 备择假设 $H_a:F_X\neq F_Y$ 。定义 ROC 函数：
$\varphi(q)=\left\{\begin{array}{ll}0&q=0\\1-F_X(F_Y^{-1}(1-q))&q\in(0,1)\\1&q=1.\end{array}\right.$ 其中， $F_Y^{-1}(x)=\inf\{y:F(y)\geq x\}$ 是 $Y$ 的 quantile function (generalized inverse function)。我们先陈述 $F_Y^{-1}(x)$ 的性质：

$F_Y^{-1}(q)\leq t$ iff. $q\leq F_Y(t).$
$F_Y(F_Y^{-1}(q))\geq q$ ，等式不成立的一个必要条件是 $F_Y$ 在 $F^{-1}_Y(q)$ 不连续。
$F_Y(F_Y^{-1}(q))\equiv q$ for $q\in(0,1)$ iff. $F_Y$ 在定义上连续。
$F_Y^{-1}(F_Y(q))\equiv q$ for $q\in(0,1)$ iff. $F_Y$ 是严格单增的。

因此，我们可以知道，如果 $F_X$ 和 $F_Y$ 都是连续且严格单调的，那么 $F_X^{-1}$ 和 $F_Y^{-1}$ 和 $F_X$ 和 $F_Y$ 一一对应，且 $\varphi(q)=q$ iff. $F_X=F_Y$ 。假设 $X$ 和 $Y$ 独立，基于 ROC 函数 $\varphi$ ，我们可以定义一个衡量 $F_X$ 和 $F_Y$ 差异的 AUC measure：
$\text{auc}(\varphi)=\int_{0}^1\varphi(q)dq=pr(X>Y)+\frac{1}{2}pr(X=Y).$ 以及 Kolmogorov-Smirnov measure：
$\text{ks}(\varphi)=\sup_{q\in[0,1]}|\varphi(q)-q|=\sup_{s\in(-\infty,\infty)}|F_X(s)-F_Y(s)|.$
如果我们有从 $X$ 中产生的独立数据 $X_i)_{i=1}^{n_x}$ 和从 $Y$ 中产生的独立数据 $Y_j)_{j=1}^{n_y}$ ，基于该数据，auc measure 的一个自然的估计为：
$\widehat{\text{auc}}(\varphi)=\frac{\sum_{i=1}^{n_x}\sum_{i=1}^{n_y}(1_{X_i>Y_j}+\frac{1}{2}1_{X_i=Y_j})}{n_x\cdot n_y}.$ 这正是 Mann-Whitney statistic，它是一个 U 统计量。

现在，回到之前的二分类问题。我们有 train data，我们在 train data 上训练得到训练器 $\phi$ 。我们有 test data $x_i,y_i)_{i=1}^{P+N}$ 。由此，我们可以计算出 $\text{TPR}(d)=\frac{\sum_{y_i=1}1_{\phi(x_i)> d}}{P}$ ， $\text{FPR}(d)=\frac{\sum_{y_i=0}1_{\phi(x_i)> d}}{N}$ 。我们注意到， $1-\text{TPR}(d)$ 和 $1-\text{FPR}(d)$ 都是关于 $d$ 的分布函数，满足单增右连续的性质。假设数据都是 I.I.D. 的，则由大数定律，当 $P$ 和 $N$ 趋于无穷的时候，我们有 $\text{TPR}(d)\rightarrow \text{TPF}(d)=pr[\phi(x)> d|y=1]$ , $\text{FPR}(d)\rightarrow \text{FPF}(d)=pr[\phi(x)> d|y=0]$ 。令 $z_1\overset{d}{=}\phi(x)|y=1$ , $z_0\overset{d}{=}\phi(x)|y=0$ ，则 $z_k$ 的分布函数为 $F_{z_k}(t)=pr(z_k\leq t)=pr(\phi(x)\leq t|y=k)$ 。由前面的分析，为了检验 $z_1$ 和 $z_0$ 是不是同分布的，我们构造
${\varphi}(q)=1-F_{z_1}\circ F_{z_0}^{-1}(1-q).$ 令 $\text{FPF}(d)$ ，可得
$\text{roc}_{\phi}(d)={\varphi}(\text{FPF}(d))=1-pr(z_1\leq F_{z_0}\circ F^{-1}_{z_0}(d))=pr(z_1>d)=\text{TPR}(d).$ 当然，用 $\text{TPR}(d)$ 和 $\text{FPR}(d)$ 去估计 $\text{TPF}(d)$ 和 $\text{FPF}(d)$ ，我们就得到了最开始所述的 ROC 曲线。所以可以看成是要检验 $H_0: \phi(x)|y=1\overset{d}{=} \phi(x)|y=0$ 。右下角的 auc 面积即
$\widehat{\text{auc}}(\phi)=\int_{0}^1 \text{TPR}(t)\text{FPR}(dt)=\sum_{i=1}^N\frac{1}{N}\sum_{j=1}^P\left(\frac{1_{z_{1j}>z_{0i}}}{P}+\frac{1_{z_{1i}=z_{0j}}}{2P}\right)=\frac{1}{NP}\sum_{y_i=1}\sum_{y_j=0}\left(1_{\phi(x_i)>\phi(x_j)}+\frac{1}{2}1_{\phi(x_i)=\phi(x_j)}\right)$ 这正是 Mann-Whitney U statistics，它收敛于 $pr(\phi(x_1)>\phi(x_0)|y_1=1,y_0=0)$ 。