混淆矩阵与lift anlaysis

混淆矩阵
在这里插入图片描述
以一个简单的二分类问题为例,分类类型为positive和negative,那么根据真实值与预测值可以分为混淆矩阵的四个部分:
TP(左上角):实际值和预测值皆为positive
FP(右上角):实际值为negative,但预测确实positive
FN(左下角):实际值为positive,但预测确实negative
TN(右下角):实际值和预测值皆为negative
常见的评价指标有(详见https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839):
在这里插入图片描述

可以看到第一张图中,红色的两部分才是预测正确的,而紫色的部分是预测错误的,但错误和错误是不能简单的“一视同仁”。以看病为例,将生病的人误诊为没病,和将没病的人误诊为有病,两者都是误诊,但是犯错的成本明显有区别。
因而引出一个新的概念:ROC,ROC的横坐标为FPR=FP/(FP+TN),意为将错误的分类成正确的比例;纵坐标为TPR,意为将正确的分类为正确的比例。这是两个不同角度的评价指标。
首先解释红色的虚线为“Random guess”,通俗来说就是“随便猜一个”的意思(如B),以二分类为例,那就是两个类型的可能性五五开,所以如果分类器的点在红虚线之下,那就还不如瞎猜,这个分类器也就没有什么实际作用了(如C)。
在这里插入图片描述
ROC曲线的横坐标和纵坐标其实是没有相关性的,所以不能把ROC曲线当做一个函数曲线来分析,应该把ROC曲线看成无数个点,每个点都代表一个分类器,其横纵坐标表征了这个分类器的性能。(详见https://zhuanlan.zhihu.com/p/26293316

真猫-预测猫真猫-预测狗
真狗-预测猫真狗-预测狗

假设有猫和狗两类,TPR值越大,说明将真猫预测成真猫的能力越强,越小说明将真猫预测成狗的可能性更大;FPR值越大,说明将真狗预测成猫的可能性更大,越小说明将真狗预测成真狗的可能性越大。所以说,最好的的情况是,TPR=1,FPR=0,即左上角的分类器越好,但事实是,鱼与熊掌不可兼得,所以就要根据实际情况来看,究竟最求更少的“真猫预测成狗”还是更少的”真狗预测成猫“。
当无所谓二者时,又可以用AUC来评判分类器性能,AUC的概念和ROC相关,即分类器曲线之下的面积大小,一般而言越大越好,面积通常在[0.5,1],因为前文说过小于0.5也没有什么意义。

lift anlaysis(可见https://www.jianshu.com/p/ff0eb70d31ec
Lift是评估一个预测模型是否有效的一个度量;它衡量的是一个模型(或规则)对目标中“响应”的预测能力优于随机选择的倍数,以1为界线,大于1的Lift表示该模型或规则比随机选择捕捉了更多的“响应”,等于1的Lift表示该模型的表现独立于随机选择,小于1则表示该模型或规则比随机选择捕捉了更少的“响应”。
一个模型随机预测的能力为x,改良过后为x‘,那么他的lift=x’/x,即可计算出。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值