机器学习 - 模型评估（TPR、FPR、K1、ROC、AUC、KS、GAIN、LIFT、GINI、KSI）

最新推荐文章于 2024-05-12 21:56:28 发布

JeffyBeh

最新推荐文章于 2024-05-12 21:56:28 发布

阅读量8.9k

点赞数 11

分类专栏：机器学习模型评估文章标签：机器学习

本文链接：https://blog.csdn.net/Jeffy_Beh/article/details/121116538

版权

以下内容多为个人理解，如有不当之处，欢迎指正！

1. 混淆矩阵

一个二分类模型，是对现实情况的一种预测。如病例（阴性/阳性、有病/没病）、邮件（垃圾邮件/非垃圾邮件）等。以病例为例，对于一个患者，存在着有病/没病两种结果。对于医生的诊断，也存在着有病/没病两种结果。将医生的诊断结果与患者的实际情况对比，则得出四种结果：

诊断为有病，实际上确实有病，称为真阳性(TP)
诊断为有病，实际上却没病，称为伪阳性(FP)
诊断为没病，实际上确实没病，称为真阴性(TN)
诊断为没病，实际上却有病，称为伪阴性(FN)

将上面的四种结果，可以绘制成一个2x2的混淆矩阵：

		真实值		总数
		p	n	总数
预测输出	p'	真阳性（TP）	伪阳性（FP）	P'
预测输出	n'	伪阴性（FN）	真阴性（TN）	N'
总数		P	N

需要注意的是，混淆矩阵是对医生的诊断结果（阳性/阴性）以及医生诊断结果的结果（正确/错误）的一种描述，患者的实际患病情况是对医生诊断结果的一种评估。切勿将患者的患病情况与医生的诊断结果的评估混为一谈。即，混淆矩阵是用来评估模型的，而与样本“无关”。

在某一次集体的病例检测的过程中，我们希望尽可能多、尽可能准确的检测出患者。所以，针对这种情况，我们提出以下指标：

1. 准确度（acc, Accuracy）：正确诊断为阴性和正确诊断为阳性的占所有样本的比例。

$\small ACC = \frac{TP + TN}{P + N}$

如前所述，我们希望尽可能多、尽可能准确的检测出患者。那么检测出非患者则没有什么意义，因此，准确度并不能很好的反映出我们的目标，或者说并不能衡量出我们预测模型的好坏。甚至如果我们检测出非患者的准确度非常高，反而会影响我们对“尽可能多、尽可能准确的检测出患者”的模型进行评估。

2. 查全率（召回率，Recall）：尽可能多反应的是我们希望能够把全部的阳性患者都检测出来。对于医学诊断而言，遗漏下来的患者，可能不能够得到及时的治疗，或者存在更大的隐患（如传染病）；或者在图像分类中我们期望尽可能多的把用户期望的类别展现给用户，如用户希望识别小猫的图片，我们可以将图库中更多关于猫的图片展示给用户。那么，查全率表示的就是正确检测为阳性（TP）占全部阳性的概率。其中，全部阳性包括正确检测为阳性（TP），和错误检测为阴性（FN）之和。

$\small Recall = \frac{TP}{TP + FN}$

3. 查准率（精准率，Precision）：尽可能准确反应的是每一个被诊断为阳性的病例都是正确的。类似抢打靶子，枪枪命中，避免子弹的浪费。那么，查准率表示的就是正确检测为阳性（TP）占全部检测为阳性的比例。其中，全部检测

最低0.47元/天解锁文章

JeffyBeh

关注

11
点赞
踩
98

收藏

觉得还不错? 一键收藏
2
评论
机器学习 - 模型评估（TPR、FPR、K1、ROC、AUC、KS、GAIN、LIFT、GINI、KSI）

1. 混淆矩阵一个二分类模型，是对现实情况的一种预测。如病例（阴性/阳性、有病/没病）、邮件（垃圾邮件/非垃圾邮件）等。以病例为例，对于一个患者，存在着有病/没病两种结果。对于医生的诊断，也存在着有病/没病两种结果。将医生的诊断结果与患者的实际情况对比，则得出四种结果：诊断为有病，实际上确实有病，称为真阳性(TP) 诊断为有病，实际上却没病，称为伪阳性(FP) 诊断为没病，实际上确实没病，称为真阴性(TN) 诊断为没病，实际上却有病，称为伪阴性(FN)将上面的四种结果，可以绘制成一个2x..
复制链接

扫一扫