不平衡分类问题

最新推荐文章于 2024-07-03 15:42:33 发布

chc960609

最新推荐文章于 2024-07-03 15:42:33 发布

阅读量2.6k

点赞数 1

本文链接：https://blog.csdn.net/chc960609/article/details/89711199

版权

TP：正确肯定——实际是正例，识别为正例

FN：错误否定（漏报）——实际是正例，却识别成了负例

FP：错误肯定（误报）——实际是负例，却识别成了正例

TN：正确否定——实际是负例，识别为负例

假设有10个人 8个好人和2个坏人
如果存在一个机器学习模型，遇到人就说好人，那么模型的预测结果将会是好人, 好人, ......

利用准确率的计算方式 ACC = 8个好人预测正确/总共有10个人 = 0.8 得这个机器模型的预测准确率为80%
有没有感觉很奇怪，我猜硬币才只有50%正确率，怎么这个模型只说好人，准确率这么高的？
而且，这个模型是不是不能够识别坏人？

准确率是非常直观的度量指标，也是我们接触的最多的，不过在对付数据不平衡的问题下，准确率就难以反映真实情况。

准确率，在二分类任务中，因为总共只有好或者坏，所以准确率 = 准确预测好人的能力 + 准确预测坏人的能力

不知道大家有没有发现，虽然不能够识别坏人，但是准确预测好人的能力这个可以拉分，只要好人多过坏人，那么我就可以保证我的预测能力大于50%，如果全是好人，那么我的准确率就100%。准确率就是这么被直接拉高了。因为在数据不平衡的情况下，预测好人的能力的占比可能大于一半，从而掩盖了预测坏人能力比较弱的事实。

这就是为什么在数据不平衡的情况下，准确率无法体现模型的真实水平。
不过还是有多人直接在数据不平衡下用准确率作为指标，在某些准确率高达95,96%的实验结果上，连样本数据都是不平横的。这样的准确率是无意义的。

其实原因有两个 1. 数据不平衡 2. 准确率不适合数据不平横的情况
--------------------- 原文：https://blog.csdn.net/qq_37695697/article/details/85069169

以上图像为ROC曲线（receiver operatingcharacteristic curve）：在不平衡数据分类中最常用的指标之一

正样本为少数类，负样本为多数类。

纵轴为召回率：正样本中有多少被识别为正样本了。

横轴为负样本中有多少被识别为正样本了

每个阈值的识别结果对应一个点(FPR，TPR),当阈值最大时，所有样本都被识别成正样本，对应于左下角的点(0,0)，当阈值最小时，所有样本都被识别成负样本，对应于右上角的点(1,1)，随着阈值从最大变化到最小，识别为正样本的可能性变大；随着阈值从最小变化到最大，将负样本识别为正样本的可能性变小；

ROC(Receiver Operating Characteristic)curve is recognized as the most rational choice for imbalanced data.

要生成一个ROC曲线,只需要真阳性率(TPR)和假阳性率(FPR)。TPR决定了一个分类器或者一个诊断测试在所有阳性样本中能正确区分的阳性案例的性能.而FPR是决定了在所有阴性的样本中有多少假阳性的判断. ROC曲线中分别将FPR和TPR定义为x和y轴,这样就描述了真阳性(获利)和假阳性(成本)之间的博弈.而TPR就可以定义为灵敏度,而FPR就定义为1-特异度,因此ROC曲线有时候也叫做灵敏度和1-特异度图像.每一个预测结果在ROC曲线中以一个点代表.
有了ROC曲线后，可以引出AUC的含义：ROC曲线下的面积（越大越好，1为理想状态）
-------原文：https://blog.csdn.net/xyz1584172808/article/details/81839230

我给出的答案是 AUC是指随机给定一个正样本和一个负样本，分类器输出该正样本为正的那个概率值比分类器输出该负样本为正的那个概率值要大的可能性。