混淆矩阵与lift anlaysis

在楼梯口吃芒果的是我

已于 2022-06-18 23:13:13 修改

阅读量200

点赞数 1

分类专栏：数据挖掘文章标签：机器学习数据挖掘

于 2022-06-18 21:44:32 首次发布

本文链接：https://blog.csdn.net/weixin_42524838/article/details/125351597

版权

数据挖掘专栏收录该内容

3 篇文章 0 订阅

订阅专栏

混淆矩阵
在这里插入图片描述
以一个简单的二分类问题为例，分类类型为positive和negative，那么根据真实值与预测值可以分为混淆矩阵的四个部分：
TP（左上角）：实际值和预测值皆为positive
FP（右上角）：实际值为negative，但预测确实positive
FN（左下角）：实际值为positive，但预测确实negative
TN（右下角）：实际值和预测值皆为negative
常见的评价指标有（详见https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839）：
在这里插入图片描述

可以看到第一张图中，红色的两部分才是预测正确的，而紫色的部分是预测错误的，但错误和错误是不能简单的“一视同仁”。以看病为例，将生病的人误诊为没病，和将没病的人误诊为有病，两者都是误诊，但是犯错的成本明显有区别。
因而引出一个新的概念：ROC，ROC的横坐标为FPR=FP/(FP+TN)，意为将错误的分类成正确的比例；纵坐标为TPR，意为将正确的分类为正确的比例。这是两个不同角度的评价指标。
首先解释红色的虚线为“Random guess”，通俗来说就是“随便猜一个”的意思（如B），以二分类为例，那就是两个类型的可能性五五开，所以如果分类器的点在红虚线之下，那就还不如瞎猜，这个分类器也就没有什么实际作用了（如C）。
在这里插入图片描述
ROC曲线的横坐标和纵坐标其实是没有相关性的，所以不能把ROC曲线当做一个函数曲线来分析，应该把ROC曲线看成无数个点，每个点都代表一个分类器，其横纵坐标表征了这个分类器的性能。（详见https://zhuanlan.zhihu.com/p/26293316）

真猫-预测猫	真猫-预测狗
真狗-预测猫	真狗-预测狗

假设有猫和狗两类，TPR值越大，说明将真猫预测成真猫的能力越强，越小说明将真猫预测成狗的可能性更大；FPR值越大，说明将真狗预测成猫的可能性更大，越小说明将真狗预测成真狗的可能性越大。所以说，最好的的情况是，TPR=1,FPR=0,即左上角的分类器越好，但事实是，鱼与熊掌不可兼得，所以就要根据实际情况来看，究竟最求更少的“真猫预测成狗”还是更少的”真狗预测成猫“。
当无所谓二者时，又可以用AUC来评判分类器性能，AUC的概念和ROC相关，即分类器曲线之下的面积大小，一般而言越大越好，面积通常在[0.5，1]，因为前文说过小于0.5也没有什么意义。

lift anlaysis（可见https://www.jianshu.com/p/ff0eb70d31ec）
Lift是评估一个预测模型是否有效的一个度量；它衡量的是一个模型（或规则）对目标中“响应”的预测能力优于随机选择的倍数，以1为界线，大于1的Lift表示该模型或规则比随机选择捕捉了更多的“响应”，等于1的Lift表示该模型的表现独立于随机选择，小于1则表示该模型或规则比随机选择捕捉了更少的“响应”。
一个模型随机预测的能力为x，改良过后为x‘，那么他的lift=x’/x，即可计算出。