深度解析roc曲线、AUC与排序损失

最新推荐文章于 2024-06-13 14:32:48 发布

FlyToCode

最新推荐文章于 2024-06-13 14:32:48 发布

阅读量1.4k

点赞数 6

分类专栏：西瓜书笔记机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_41229918/article/details/126077960

版权

机器学习同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

西瓜书笔记

1 篇文章 0 订阅

订阅专栏

1、ROC曲线

ROC全称受试者工作特征，是用来研究学习器泛化性能的有力工具。ROC曲线横轴是假正利率FPR，纵轴是TPR，曲线的绘制过程是：根据学习器的预测结果对样例进行排序，按此顺序逐个把样例作为正例进行预测，计算出TPR和FPR，绘制ROC图。

ROC VS P-R

	ROC	PR
适用情况	测试样本正负分布均匀	测试样本正负分布不均匀（有明显差别）
对样本分布的敏感程度	不敏感	敏感
优点	能够衡量一个模型本身的预测能力	能够看出学习器随样本比例的变化的效果

「注」:先观察ROC曲线再观察PR曲线决定学习器的效果

2、AUC=1- $\ell$ _rank

ROC曲线绘制实例

已知一个学习器有以下预测结果：

s1,0.77,+	s2,0.62,-	s3,0.58,+	s4,0.47,+
s5,0.47,-	s6,0.33,-	s7,0.23,+	s8,0.15,-

ROC曲线横轴为 $FPR=\frac{{FP}}{{FP + TN}}$ ,纵轴为 $TPR=\frac{{TP}}{{TP + FN}}$ ，横轴纵轴的分母都是定值，分别为m^_(反例个数),m⁺(正例个数),根据ROC的绘制过程可以看出每新增一个正例，ROC曲线水平上升一个单位，每新增一个反例，ROC曲线水平向右增加一个单位。最特殊的是上面例子中选定0.47作为正例阈值时，正例和反例各增加了一个，因此线段斜向上倾斜。

在这里插入图片描述

绘制过程如上图所示。

证明AUC=1- $\ell$ _rank

现在已知排序损失定义为：

$\ell_{rank}=\frac{1}{m^+m^-}\sum_{\boldsymbol{x}^+ \in D^+}\sum_{\boldsymbol{x}^- \in D^-}\left(\mathbb{I}\left(f(\boldsymbol{x}^+)<f(\boldsymbol{x}^-)\right)+\frac{1}{2}\mathbb{I}\left(f(\boldsymbol{x}^+)=f(\boldsymbol{x}^-)\right)\right)$

试证明：AUC=1- $\ell$ _rank，也就是说明上述式子的含义是曲线上方的面积。

证明：
$\begin{array}{l} {\ell _{rank}} = \frac{1}{{{m^ + }{m^ - }}}\sum\limits_{{{\bf{x}}^ + } \in {D^ + }} {\sum\limits_{{{\bf{x}}^ - } \in {D^ - }} {\left( {\left( {f({{\bf{x}}^ + }) < f({{\bf{x}}^ - })} \right) + \frac{1}{2}\left( {f({{\bf{x}}^ + }) = f({{\bf{x}}^ - })} \right)} \right)} } \\ {\rm{ }} = \sum\limits_{{{\bf{x}}^ + } \in {D^ + }} {\frac{1}{{{m^ + }}}\left( {\frac{1}{{{m^ - }}}\sum\limits_{{{\bf{x}}^ - } \in {D^ - }} {\left( {f({{\bf{x}}^ + }) < f({{\bf{x}}^ - })} \right)} } \right)} + \frac{1}{2}\sum\limits_{{{\bf{x}}^ + } \in {D^ + }} {\frac{1}{{{m^ + }}}\left( {\frac{1}{{{m^ - }}}\sum\limits_{{{\bf{x}}^ - } \in {D^ - }} {\left( {f({{\bf{x}}^ + }) = f({{\bf{x}}^ - })} \right)} } \right)} \end{array}$

上面式子第一项解释：

针对每个被选入当作正例的正点，在它被选入之前，那些预测值大于它的反点已被选入正例，也就是ROC曲线上已经向右平移 ${\frac{1}{{{m^ - }}}\sum\limits_{{{\bf{x}}^ - } \in {D^ - }} {\left( {f({{\bf{x}}^ + }) < f({{\bf{x}}^ - })} \right)} }$ 个单位，再乘于高 ${\frac{1}{{{m^ + }}}}$ 便得到每条绿色线段左边矩形的面积。

上面式子第二项解释：

针对每个被选入当作正例的正点，当它选入时，可能会有一些反点和它预测值相同而被当作正例看待，因此ROC曲线上会同时向上、向右分别平移1个单位， ${\sum\limits_{{{\bf{x}}^ - } \in {D^ - }} {\left( {f({{\bf{x}}^ + }) = f({{\bf{x}}^ - })} \right)} }$ 单位，因此整体线段会斜向上延伸，如上图蓝色线段所示，多的三角形面积计算公式便为： $\frac{1}{2}\sum\limits_{{{\bf{x}}^ + } \in {D^ + }} {\frac{1}{{{m^ + }}}\left( {\frac{1}{{{m^ - }}}\sum\limits_{{{\bf{x}}^ - } \in {D^ - }} {\left( {f({{\bf{x}}^ + }) = f({{\bf{x}}^ - })} \right)} } \right)}$ 。