评估指标：精确率，召回率，F1_score，ROC，AUC

最新推荐文章于 2024-08-13 20:34:17 发布

西欧阿哥

最新推荐文章于 2024-08-13 20:34:17 发布

阅读量1.9k

点赞数 1

分类专栏：评估指标文章标签：人工智能机器学习 python

本文链接：https://blog.csdn.net/Western_europe/article/details/107068715

版权

评估指标专栏收录该内容

1 篇文章 0 订阅

订阅专栏

分类算法评估标准详解

分类准确度并不能够评估所有的场景，展示的结果也比较片面，这时候就需要其他的评估方法来进行测量评估。
所以接下来介绍一些其他的评估标准，将从以下5个方面来介绍：

混淆矩阵
精准率和召回率
F1 Score
ROC曲线
AUC

一、混淆矩阵（Confusion Matrix）

对于二分类问题，所有的问题分为0和1两类，混淆矩阵是2*2的矩阵：
在这里插入图片描述
TP：真实值是1，预测值是1，即我们预测是positive，预测正确了。
FN：真实值是1，预测值是0，即我们预测是negative，但预测错误了。
FP：真实值是0，预测值是1，即我们预测是positive，但是预测错误了。
TN：真实值是0，预测值是0，即我们预测是negative，预测正确了。

例如现在有个癌症预测系统，假设对于1万人进行检测，根据混淆矩阵得出结果入下：
对于1万个人中，有9978个人本身并没有癌症，我们的算法也判断他没有癌症；
有12个人本身没有癌症，但是我们的算法却错误地预测他有癌症；
有2个人确实有癌症，但我们算法预测他没有癌症；
有8个人确实有癌症，而且我们也预测对了。

混淆矩阵得出的结果更为全面。
在这里插入图片描述

二、精准率和召回率

精准率：
在这里插入图片描述
即：精准率为8/(8+12)=40%

精准率就是测量出，预测正确的个数占所有预测成positive情况的比例

一句话：预测值为1，且预测对了的比例

召回率
在这里插入图片描述
即：精准率为8/(8+2)=80%

召回率是：所有真实值为1的数据中，预测对了的个数

三、F1 Score

精准率和召回率是有效的评估方式，但是根据场景不同应该将评估的重点放在不同的方面。
为了取得一个平衡，使用一个新的指标F1 Score。

概念介绍
F1 Score是精准率和召回率的调和平均值

调和平均值的特点是如果二者极度不平衡，如某一个值特别高、另一个值特别低时，得到的F1 Score值也特别低；只有二者都非常高，F1才会高。这样才符合我们对精准率和召回率的衡量标准。

四、ROC曲线

分类阈值：设置判断样本为正例的阈值thr
如果某个逻辑回归模型对某封电子邮件进行预测时返回的概率为 0.9995，则表示该模型预测这封邮件非常可能是垃圾邮件。相反，在同一个逻辑回归模型中预测分数为 0.0003 的另一封电子邮件很可能不是垃圾邮件。可如果某封电子邮件的预测分数为 0.6 呢？为了将逻辑回归值映射到二元类别，您必须指定分类阈值（也称为判定阈值）。如果值高于该阈值，则表示“垃圾邮件”；如果值低于该阈值，则表示“非垃圾邮件”。人们往往会认为分类阈值应始终为 0.5，但阈值取决于具体问题，因此您必须对其进行调整。

精准率随着threshold阈值的增加而减低，recall随着阈值的增大而减小。

TPR: 预测为1，且预测对了的数量，占真实值为1的数据百分比，这个就是召回率
FPR: 预测为1，但预测错了的数量，占真实值不为1的数据百分比
TPR和FPR呈正比关系，ROC曲线就是描述这两个关系的曲线。

ROC曲线
ROC(Receiver Operation Characteristic Curve)，横轴是FPR, 纵轴是TPR.
TPR就是所有正例中，有多少被正确地判定为正；
FPR是所有负例中，有多少被错误地判定为正。

分类阈值会影响TPR和FPR的取值，理想状态下，希望TPR = 1， FPR = 0，这个是不可能实现的，所以需要找一个合适的分类阈值来保证成功预测比例比较大。

ROC曲线距离左上角越近，证明分类器效果越好。如果一条算法1的ROC曲线完全包含算法2，则可以断定性能算法1>算法2。这很好理解，此时任做一条横线（纵线），任意相同TPR（FPR）时，算法1的FPR更低（TPR更高），故显然更优。

很多时候两个分类器的ROC曲线交叉，无法判断哪个分类器性能更好，这时可以计算曲线下的面积AUC，作为性能度量

五、AUC

AUC(Area Under Curve)指的是ROC曲线下面的面积，纵轴和横轴范围都是（0,1），所以总面积小于1。

ROC曲线下方由梯形组成，矩形可以看成特征的梯形。因此，AUC的面积可以这样算：（上底+下底）* 高 / 2，曲线下面的面积可以由多个梯形面积叠加得到。AUC越大，分类器分类效果越好。

AUC = 1，是完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样，模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

编程实现

手动实现混淆矩阵，精准率和召回率,f1分值,ROC曲线,AUC

import pandas as pd
‘’‘处理二维矩阵’’’
df = pd.DataFrame([
[0,1],[1,1],[2,1],[3,-1],[4,-1],
[5,-1],[6,1],[7,1],[8,1],[9,-1]
])
X = df.iloc[:,[0]]
Y = df.iloc[:,-1]

‘’‘用逻辑二分类’’’
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X, Y)

精准率：
from sklearn.metrics import precision_score
print(“精准率为：”,precision_score(Y,model.predict(X)))

结果：
0.6

召回率
from sklearn.metrics import recall_score
print(“召回率为：”,recall_score(Y,model.predict(X)))

结果：
1.0

混淆矩阵
from sklearn.metrics import confusion_matrix
print(confusion_matrix(Y, model.predict(X)))

结果：
array([[0 4]
[0 6]],dtype=int64)

f1_score分值
from sklearn.metrics import f1_score
print(“f1_score为：”,f1_score(Y,model.predict(X)))

结果：
0.7499999999999999

AUC
from sklearn.metrics import roc_auc_score
print(‘AUC:’, roc_auc_score(Y, model.predict_proba(X)[:, -1:]))

结果：
AUC: 0.625

ROC曲线
import matplotlib.pyplot as plt ‘’‘画图’’’
from sklearn.metrics import roc_curve
plt.rcParams[‘font.sans-serif’] = [‘SimHei’] ‘’‘黑体’’’
fpr, tpr, th = roc_curve(Y, model.predict_proba(X)[:, -1:])
plt.title(‘ROC曲线’)
plt.plot(fpr, tpr)
plt.show()

‘’‘展示曲线图’’’
在这里插入图片描述
再强调一下易混淆点：
精准率（查准率）：预测值为1，且预测对了的比例，即：我们关注的那个事件，预测的有多准。
召回率（查全率）：所有真实值为1的数据中，预测对了的个数，即：我们关注的那个事件真实的发生情况下，我们成功预测的比例是多少。