逻辑回归评估指标

最新推荐文章于 2024-05-01 23:44:09 发布

醉翁之意不在酒~

最新推荐文章于 2024-05-01 23:44:09 发布

阅读量2.1k

点赞数 1

分类专栏：机器学习文章标签：逻辑回归算法机器学习

LBWNB

本文链接：https://blog.csdn.net/qq_58535145/article/details/122538372

版权

机器学习专栏收录该内容

15 篇文章 11 订阅

订阅专栏

一、混淆矩阵

1、首先我们要了解什么是混淆矩阵以及每一部分的含义：

TP: 将正类预测为正类数（真阳性）

FN: 将正类预测为负类数（伪阴性）

FP: 将负类预测为正类数（伪阳性）

TN: 将负类预测为负类数（真阴性）

2、案例：假设我们手上有60个正样本，40个负样本，我们想找出所有的正样本，模型查找出50个，其中只有40个是真正的正样本。

TP：40

FN：20

FP：10

TN：30

二、分类精度衡量指标

准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) (40+10)/(60+40) = 0.5

精确率(precision)、查准类= TP/(TP+FP) 40/(40+10) = 0.8

召回率(recall)、查全率 = TP/(TP+FN) 40/(40+20) = 0.67

F1值就是精确率和召回率的调和均值:

F1 = 2 * (precision * recall) / (precision + recall) 2*(0.8*0.67)/(0.8+0.67) = 0.73

其中精确率和召回率只能运用在二分类上。

三、ROC曲线

1、什么是ROC曲线？

ROC全称是“受试者工作特征”（Receiver Operating Characteristic）。ROC曲线的面积就是 AUC（Area Under the Curve）。AUC用于衡量“二分类问题”机器学习算法性能（泛化能力）

2、为什么要引入ROC曲线？

在实际生活中我们的正负样本数往往是不平衡的，可能正常样本是异常样本的几十倍甚至几千倍，那么这是我们以上的评估指标参考价值不大，在这种情况下使用准确率、精准率等指标进行精度评价，我们可以发现这些指标会随着两种样本数量的比例变化而发生变化。所以我们要找一个无论数据是否平衡但评估指标都不会有太大变化甚至没有变化的评估方法，因此我们要推出ROC曲线来评估模型好坏。

如图，其中以假阳率（FPR）为横坐标，以真阳率（TPR）为纵坐标。

负正类率(False Postive Rate)FPR: FP/(FP+TN)，代表分类器预测的正类中实际负实例占所有负实例的比例。FPR表示，在所有的恶性肿瘤中，被预测成良性的比例。称为伪阳性率。伪阳性率告诉我们，随机拿一个恶性的肿瘤样本，有多大概率会将其预测成良性肿瘤。显然我们会希望FPR越小越好。

真正类率(True Postive Rate)TPR: TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例。TPR表示，在所有良性肿瘤中，被预测为良性的比例。称为真阳性率。真阳性率告诉我们，随机拿一个良性的肿瘤样本时，有多大的概率会将其预测为良性肿瘤。显然我们会希望TPR越大越好。

点(0,1)，即FPR=0，TPR=1。FPR=0说明FP=0，也就是说，没有假正例。TPR=1说明，FN=0，也就是说没有假反例。这不就是最完美的情况吗？所有的预测都正确了。良性的肿瘤都预测为良性，恶性肿瘤都预测为恶性，分类百分之百正确。这也体现了FPR 与TPR的意义。就像前面说的我们本来就希望FPR越小越好，TPR越大越好。

点(1,0)，即FPR=1，TPR=0。这个点与上面那个点形成对比，刚好相反。所以这是最糟糕的情况。所有的预测都预测错了。

点(0,0)，即FPR=0，TPR=0。也就是FP=0，TP=0。所以这个点的意义是所有的样本都预测为恶性肿瘤。也就是说，无论给什么样本给我，我都无脑预测成恶性肿瘤就是了。

点(1,1)，即FPR=1，TPR=1。显然，这个点跟点(0,0)是相反的，这个点的意义是将所有的样本都预测为良性肿瘤。

考察完这四个点，我们可以知道，如果一个点越接近左上角，那么说明模型的预测效果越好。如果能达到左上角(点(0,1))，那就是最完美的结果了。

我们知道，在二分类（0，1）的模型中，一般我们最后的输出是一个概率值，表示结果是1的概率。那么我们最后怎么决定输入的x是属于0或1呢？我们需要一个阈值，超过这个阈值则归类为1，低于这个阈值就归类为0。所以，不同的阈值会导致分类的结果不同，也就是混淆矩阵不一样了，FPR和TPR也就不一样了。所以当阈值从0开始慢慢移动到1的过程，就会形成很多对(FPR, TPR)的值，将它们画在坐标系上，就是所谓的ROC曲线了。

我们来举一个例子。比如我们有5个样本：
真实的类别(label)为y = c(1,1,0,0,1).
一个分类器预测样本为1的概率为p=c(0.5, 0.6, 0.55, 0.4, 0.7).

正如上面说的，我们需要有阈值，才能将概率转换为类别，才能得到FPR和TPR。而选定不同的阈值会得到不同的FPR和TPR。假设我们现在选定的阈值为0.1,那么5个样本都被归类为1。如果选定0.3，结果仍然一样。如果选了0.45作为阈值，那么只有样本4被分进0，其余都进入1类。当我们不断改变阈值，就会得到不同的FPR和TPR。然后我们将得到的(FPR , TPR)连接起来，就得到了ROC曲线了。

ROC曲线下的面积为AUC，一般AUC在0.5-1之间，AUC越大越好。

参考网址：

https://blog.csdn.net/liweibin1994/article/details/79462554

醉翁之意不在酒~

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
逻辑回归评估指标

一、混淆矩阵1、首先我们要了解什么是混淆矩阵以及每一部分的含义：TP: 将正类预测为正类数（真阳性）FN: 将正类预测为负类数（伪阴性）FP: 将负类预测为正类数（伪阳性）TN: 将负类预测为负类数（真阴性）2、案例：假设我们手上有60个正样本，40个负样本，我们想找出所有的正样本，模型查找出50个，其中只有40个是真正的正样本。TP：40FN：20FP：10TN：30二、分类精度衡量指标准确率(accuracy) = 预测对的/所有 = (T
复制链接

扫一扫