逻辑回归评估指标

一、混淆矩阵

1、首先我们要了解什么是混淆矩阵以及每一部分的含义:

TP: 将正类预测为正类数(真阳性)
FN: 将正类预测为负类数(伪阴性)
FP: 将负类预测为正类数(伪阳性)
TN: 将负类预测为负类数(真阴性)
2、案例:假设我们手上有60个正样本,40个负样本,我们想找出所有的正样本,模型查找出50个,其中只有40个是真正的正样本。
TP:40
FN:20
FP:10
TN:30

二、分类精度衡量指标

准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN)             (40+10)/(60+40) = 0.5
精确率(precision)、查准类= TP/(TP+FP)                                                  40/(40+10) = 0.8
召回率(recall)、查全率 = TP/(TP+FN)                                                       40/(40+20) = 0.67
F1值就是精确率和召回率的调和均值:
F1 = 2 * (precision * recall) / (precision + recall)                                2*(0.8*0.67)/(0.8+0.67) = 0.73
其中精确率和召回率只能运用在二分类上。

三、ROC曲线

1、什么是ROC曲线?

         ROC全称是“受试者工作特征”(Receiver Operating Characteristic)。ROC曲线的面积就是 AUC(Area Under the Curve)。AUC用于衡量“二分类问题”机器学习算法性能(泛化能力)

2、为什么要引入ROC曲线?
        在实际生活中我们的正负样本数往往是不平衡的,可能正常样本是异常样本的几十倍甚至几千倍,那么这是我们以上的评估指标参考价值不大,在这种情况下使用准确率、精准率等指标进行精度评价,我们可以发现这些指标会随着两种样本数量的比例变化而发生变化。所以我们要找一个无论数据是否平衡但评估指标都不会有太大变化甚至没有变化的评估方法,因此我们要推出ROC曲线来评估模型好坏。

 如图,其中以假阳率(FPR)为横坐标,以真阳率(TPR)为纵坐标。

负正类率(False Postive Rate)FPR: FP/(FP+TN),代表分类器预测的正类中实际负实例占所有负实例的比例。FPR表示,在所有的恶性肿瘤中,被预测成良性的比例。称为伪阳性率。伪阳性率告诉我们,随机拿一个恶性的肿瘤样本,有多大概率会将其预测成良性肿瘤。显然我们会希望FPR越小越好。

真正类率(True Postive Rate)TPR: TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例。TPR表示,在所有良性肿瘤中,被预测为良性的比例。称为真阳性率。真阳性率告诉我们,随机拿一个良性的肿瘤样本时,有多大的概率会将其预测为良性肿瘤。显然我们会希望TPR越大越好。

点(0,1),即FPR=0,TPR=1。FPR=0说明FP=0,也就是说,没有假正例。TPR=1说明,FN=0,也就是说没有假反例。这不就是最完美的情况吗?所有的预测都正确了。良性的肿瘤都预测为良性,恶性肿瘤都预测为恶性,分类百分之百正确。这也体现了FPR 与TPR的意义。就像前面说的我们本来就希望FPR越小越好,TPR越大越好。

点(1,0),即FPR=1,TPR=0。这个点与上面那个点形成对比,刚好相反。所以这是最糟糕的情况。所有的预测都预测错了。

点(0,0),即FPR=0,TPR=0。也就是FP=0,TP=0。所以这个点的意义是所有的样本都预测为恶性肿瘤。也就是说,无论给什么样本给我,我都无脑预测成恶性肿瘤就是了。

点(1,1),即FPR=1,TPR=1。显然,这个点跟点(0,0)是相反的,这个点的意义是将所有的样本都预测为良性肿瘤。

考察完这四个点,我们可以知道,如果一个点越接近左上角,那么说明模型的预测效果越好。如果能达到左上角(点(0,1)),那就是最完美的结果了。
 

        我们知道,在二分类(0,1)的模型中,一般我们最后的输出是一个概率值,表示结果是1的概率。那么我们最后怎么决定输入的x是属于0或1呢?我们需要一个阈值,超过这个阈值则归类为1,低于这个阈值就归类为0。所以,不同的阈值会导致分类的结果不同,也就是混淆矩阵不一样了,FPR和TPR也就不一样了。所以当阈值从0开始慢慢移动到1的过程,就会形成很多对(FPR, TPR)的值,将它们画在坐标系上,就是所谓的ROC曲线了。

我们来举一个例子。比如我们有5个样本:
真实的类别(label)为y = c(1,1,0,0,1).
一个分类器预测样本为1的概率为p=c(0.5, 0.6, 0.55, 0.4, 0.7).

        正如上面说的,我们需要有阈值,才能将概率转换为类别,才能得到FPR和TPR。而选定不同的阈值会得到不同的FPR和TPR。假设我们现在选定的阈值为0.1,那么5个样本都被归类为1。如果选定0.3,结果仍然一样。如果选了0.45作为阈值,那么只有样本4被分进0,其余都进入1类。当我们不断改变阈值,就会得到不同的FPR和TPR。然后我们将得到的(FPR , TPR)连接起来,就得到了ROC曲线了。

ROC曲线下的面积为AUC,一般AUC在0.5-1之间,AUC越大越好。

参考网址:

https://blog.csdn.net/liweibin1994/article/details/79462554

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

醉翁之意不在酒~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值