ROC曲线与AUC

最新推荐文章于 2024-04-23 17:56:56 发布

Zhe0311

最新推荐文章于 2024-04-23 17:56:56 发布

阅读量220

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Cai__yz/article/details/124972569

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

ROC曲线

受试者工作特征曲线（Receiver Operating Characteristic Curve, ROC）

横坐标：假阳率
$FPR=\frac{FP}{FP+TN}$
表示在真正为阴性的样本中，预测为阳性的样本的比例。
纵坐标：真阳率（Recall）
$\frac{TP}{TP+FN}$
表示在所有真正为阳性的样本中，预测为阳性的比例

通常，网络给出的预测值是处于 $[0, 1]$ 的（比如通过sigmoid），之后通过选取阈值划分正、负样本。改变阈值后， $F P R$ 和 $T P R$ 也会随之改变。不断改变阈值，将得到的 $(F P R, T P R)$ 点描出即可得到ROC曲线。

AUC的理解

ROC曲线下的面积（Area Under ROC Curve，AUC）

AUC越大，曲线越靠近左上角，对于任意阈值， $(F P R, T P R)$ 越靠近 $(0, 1)$ ，假阳率越靠近0，说明对于真实为阴性的样本，基本都预测为阴性了；真阳率越靠近1，说明对于真实为阳性的样本，基本都预测为阳性了。这也说明，AUC越大（越靠近1），分类的效果越好。

也可以通过数学推导得到AUC一个更加直观的理解。

分类器 $c$ 将 $p$ 维样本 $\mathbf{x}$ 映射到 $[0, 1]$ ，即 $\mathbb{R}^p \to [0, 1]$ 。

若样本为正样本（阳性），记作 $y(\mathbf{x}）= 1$ ；若样本为负样本（阴性），记作 $y(\mathbf{x}) = 0$ 。真阳率和假阳率都是阈值 $t$ 的函数，记前者为 $T (t)$ ，后者为 $F (t)$ ，那么

$\mathrm{P}[c(\mathbf{x}) > t ~|~ y(\mathbf{x}) = 1] \\ F(t) = \mathrm{P}[c(\mathbf{x}) > t ~|~ y(\mathbf{x}) = 0]$

在ROC曲线中，可以将 $T$ 看作是 $F$ 的函数，记概率密度函数为 $p$ ，那么
$\begin{aligned} AUC &= \int_{0}^{1}{T[F(t)]} ~\mathrm{d}F(t) \\ &= \int_{0}^{1}{\mathrm{P}[c(\mathbf{x}) > F^{-1}(F(t)) ~|~ y(\mathbf{x}) = 1]} ~\mathrm{d}F(t) \\ &= \int_{0}^{1}{\mathrm{P}[c(\mathbf{x}) > t ~|~ y(\mathbf{x}) = 1]\cdot \frac{\partial F}{\partial t}} ~\mathrm{d}t \\ &= \int_{0}^{1}{\mathrm{P}[c(\mathbf{x}) > t ~|~ y(\mathbf{x}) = 1]\cdot p(c(\mathbf{x'}) = t ~|~ y(\mathbf{x'}) = 0)} ~\mathrm{d}t \\ &= \int_{0}^{1}{ \int_{t}^{1}{p(c(\mathbf{x}) = s ~|~ y(\mathrm{x}) = 1) } \cdot p(c(\mathbf{x'}) = t ~|~ y(\mathbf{x'}) = 0)} ~ \mathrm{d}s ~\mathrm{d}t \\ &= \int_{0}^{1}{ \int_{t}^{1}{p(c(\mathbf{x}) = s } ,~c(\mathbf{x'}) = t ~|~ y(\mathbf{x}) = 1, ~ y(\mathrm{x'}) = 0 }) ~ \mathrm{d}s ~\mathrm{d}t \\ &= \mathrm{P}[c(\mathbf{x}) > c(\mathbf{x'}) ~|~ y(\mathbf{x}) = 1, ~ y(\mathrm{x'}) = 0 ] \end{aligned}$
这里要求 $\mathbf{x}$ 和 $\mathbf{x'}$ 是独立的。

上面推导得到结论的直观理解是，如果随机从正样本中取出一个样本 $\mathbf{x_0}$ ，随机从负样本中取出一个样本 $\mathbf{x_0'}$ ，分类器对 $\mathbf{x_0}$ 打分大于 $\mathbf{x_0'}$ 的概率即为AUC。

从另一个角度来看，对于推荐系统，对于一个正样本和一个负样本，正样本的分数高于负样本的概率越大（AUC越大），说明正样本排在负样本前的概率越大。即，AUC is the probability of correct ranking of a random “positive - negative” pair.

AUC的计算

既然AUC是ROC曲线与x正半轴围成的面积，当然可以用计算面积的方式来计算AUC，只不过有些慢，因为需要不断改变阈值，计算真阳率和假阳率。假设样本数量为 $n$ ，计算一个阈值下真阳率和假阳率的复杂度在 $\mathcal{O}(n)$ ，如果取 $m$ 个阈值，得到ROC曲线的复杂度是 $\mathcal{O}(m\times n)$ ，再计算面积，大概总的复杂度在 $\mathcal{O}(m^2\times n)$ ，虽然还有优化的空间，但也过于复杂。（比如先排好序，然后记录阈值前后正负样本的个数，大概在 $\mathcal{O}(m\times (m+n)$ ）。以上复杂度都是凭感觉写的，不一定对orz。