详细讲解分类模型评估

申明:文章内容是作者自己的学习笔记,教学来源是开课吧讲师梁勇老师。
不要杠,开心学习!
讲师介绍:梁老师 《细说Java》与《Java深入解析》图书作者。一线互联网资深数据分析专家,超过十年软件开发与培训经验。精通Python与Java开发,擅长网络爬虫,数据分析与可视化,机器学习,自然语言处理等技术。曾参与阿里云大学数据分析,机器学习,自然语言处理等课程开发与认证设计,担任阿里云学院导师。

进入正文:

本篇博客让我们来学习分类模型评估。
涉及到的知识点有:

  1. 混淆矩阵
  2. 评估指标(正确率、准确率、召回率、调和平均值F1)
  3. ROC和AUC

那我们快开始吧!

在这里插入图片描述

1、分类模型

分类问题在我们日常生活中处处可见,比如我们对帅哥的分类,可能对帅哥分为非常帅和一般帅。比如我们平时刷淘宝,淘宝根据我们平时的喜好给我们推送产品,那我们就会把产品分为感兴趣和不感兴趣两类。
上述所说的问题就是典型的分类问题,确切的说其实就是二分类问题。
能够解决这些二分类问题的数学模型就被称为二分类模型
用数学的方式表达就是,给定自变量X,代入到我们的分类模型F,会输出因变量y,y的取值为0或1,其中0代表负样本(一般帅的帅哥、不感兴趣的推送),1代表正样本(非常帅气的帅哥、感兴趣的推送)。

主题:如何对分类模型进行评估
目标:
  • 能够熟知混淆矩阵的含义。
  • 能够使用各种指标对分类模型进行评估。
  • 能够独立绘制ROC曲线,并熟悉该曲线细节。
  • 能够对样本不均衡进行处理(扩展内容)。

2、混淆矩阵

混淆矩阵,可以用来评估模型分类的正确性。
该矩阵是一个方阵,矩阵的数值用来表示分类器预测的结果,包括真正例(True Positive),假正例(False Positive),真负例(True Negative),假负例(False Negative)。
在这里插入图片描述
矩阵的形状是2 x 2,其中, - 矩阵的左上角表示,预测值为1,实际值为1(True Positive,简称TP); - 右上角表示预测值为1,实际值为0(False Positive,简称FP); - 左下角表示预测值为0,实际值为1(False Negative,简称FN); - 右下角表示预测值为0,实际值为0(True Negative,简称TN);

真负例(TN)+ 假正例(FP)——每个类别真实存在的负例的数量
假负例(FN)+ 真正例(TP)——每个类别真实存在的正例的数量
真负例(TN)+ 假负例(FN)——每个类别预测的真负例数量
假正例(FP)+ 真正例(TP)——每个类别预测的真正例数量

其中:

TP:真正例,实际为正预测为正;
FP:假正例,实际为负但预测为正;
FN:假反例,实际为正但预测为负;
TN:真反例,实际为负预测为负

接下来,我们通过数据来看下鸢尾花的混淆矩阵:

import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
# 混淆矩阵
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
import warnings

plt.rcParams["font.family"] = "SimHei"
plt.rcParams["axes.unicode_minus"] = False
plt.rcParams["font.size"] = 12
warnings.filterwarnings("ignore")

iris = load_iris()  #导入鸢尾花数据集
X, y = iris.data, iris.target
X = X[y != 0, 2:]
y = y[y != 0]
y[y == 1] = 0
y[y == 2] = 1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2)
lr = LogisticRegression()  #使用逻辑回归
lr.fit(X_train, y_train)
y_hat = lr.predict(X_test)
# 根据传入的真实值与预测值,创建混淆矩阵。
matrix = confusion_matrix(y_true=y_test, y_pred=y_hat)
print(matrix)

输出结果:
在这里插入图片描述
我们还可以对其进行可视化操作:

mat = plt.matshow(matrix, cmap=plt.cm.Blues, alpha=0.5)    #cmap 指定颜色图色系,alpha透明度
label = ["负例", "正例"]
ax = plt.gca()
ax.set(xticks=np.arange(matrix.shape[1]), yticks=np.arange(matrix.shape[0]),
        xticklabels=label, yticklabels=label, title="混淆矩阵可视化\n",
        ylabel="真实值", xlabel="预测值")
for i in range(matrix.shape[0]):
    for j in range(matrix.shape[1]):
        plt.text(x=j, y=i, s=matrix[i, j], va="center", ha="center")
a, b = ax.get_ylim()
ax.set_ylim(a + 0.5, b - 0.5)
plt.show()

代码解析:
matshow( ) 绘制矩阵,alpha 透明度
结果:
在这里插入图片描述
练习:

关于混淆矩阵,说法正确的是( ABCD)。【不定项】
A 混淆矩阵可以用来评估分类模型。
B 混淆矩阵中,TP与TN的数值越大,则分类的效果越好。
C 混淆矩阵一行元素的和代表某个类别的实际数量。
D 混淆矩阵一列元素的和代表某个类别的预测数量。

3、评估指标

对于分类模型,我们可以提取如下的评估指标:

  • 正确率(accuracy)
  • 精准率(precision)
  • 召回率(recall)
  • F1(调和平均值)
3.1 正确率

正确率(准确率)定义如下:
衡量所有样本被分类准确的比例。
Accuracy = (TP+TN) / (TP+FP+TN+FN)
在这里插入图片描述
预测正确的数量除以总数量。

3.2 精准率

查准率(精准率)定义如下:
衡量正样本的分类准确率,就是说被预测为正样本的样本有多少是真的正样本。
Precision = TP / (TP+FP)
在这里插入图片描述
精准率只考虑正例。

3.3 召回率

查全率(召回率)定义如下:
表示分类正确的正样本占总的正样本的比例。
Recall = TP / (TP+FN)
在这里插入图片描述

3.4 调和平均值F1

F值(F1-scores)调和平均值F1定义如下:
精确率和召回率的调和平均。
精准率Precision和召回率Recall加权调和平均数,并假设两者一样重要。
在这里插入图片描述
F1-score = (2Recall*Precision) / (Recall + Precision)

精准率和召回率是一对矛盾的度量。一般来说,精准率高时,召回率往往偏低;而召回率高时,精准率往往偏低。通常只有在一些简单任务中,才可能使二者都很高。

最好的分类器当然是准确率、精确率,召回率都为1,但实际场景中几乎是不可能的,而且精确率和召回率往往会相互影响,一个高了另一个会有所下降,因此在实际应用中要根据具体需求做适当平衡。

让我们做个练习加深下印象吧!

以下说法正确的是( C )。
A 使用正确率去评估一个分类模型,效果会比精准率更好。
B 使用精准率去评估一个分类模型,效果会比召回率更好。
C 精准率与召回率通常要联合使用。
D 精准率与召回率如果有一个值较低,F1值也可能会较高。

如果精准率和召回率我们只能选择重视一个,我们会更看重( C )。
A 精准率。
B 召回率。
C 具体场景不同,重视谁也会不同。

接下来我们通过程序来说明下:

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

print("正确率:", accuracy_score(y_test, y_hat))
# 默认将1类别视为正例,可以通过pos_label参数指定。
print("精准率:", precision_score(y_test, y_hat))
print("召回率:", recall_score(y_test, y_hat))
print("F1调和平均值:", f1_score(y_test, y_hat))
# 我们也可以调用逻辑回归模型对象的score方法,也能获取正确率。
# 但是需要注意,score方法与f1_score函数的参数是不同的。
print("score方法计算正确率:", lr.score(X_test, y_test))

结果:
在这里插入图片描述
除此之外,我们也可以使用classification_report函数来查看模型的分类统计信息,该方法会返回字符串类型,给出相关的分类指标评估值。

from sklearn.metrics import classification_report

print(classification_report(y_true=y_test, y_pred=y_hat))

结果:
在这里插入图片描述

练习:

如果使用精准率与召回率评估二分类模型时,我们应该将哪个类别设置为正例? (B)
A 随意
B 关注的类别
C 不关注的类别

4、ROC和AUC

ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。

4.1 ROC曲线

ROC曲线(Receiver Operating Characteristic——受试者工作特征曲线),使用图形来描述二分类系统的性能表现。图形的纵轴为真正例率(TPR——True Positive Rate),横轴为假正例率(FPR——False Positive Rate)。其中,真正例率与假正例率定义为:
在这里插入图片描述
ROC曲线通过真正例率(TPR)与假正例率(FPR)两项指标,可以用来评估分类模型的性能。真正例率与假正例率可以通过移动分类模型的阈值而进行计算。随着阈值的改变,真正例率与假负例率也会随之发生改变,进而就可以在ROC曲线坐标上,形成多个点。

ROC曲线反映了FPR与TPR之间权衡的情况,通俗来说,即在TPR随着FPR递增的情况下,谁增长得更快,快多少的问题。TPR增长得越快,曲线越往上凸,模型的分类性能就越好。

ROC曲线如果为对角线,则可以理解为随机猜测。如果在对角线以下,则其性能比随机猜测还要差。如果ROC曲线真正例率为1,假正例率为0,即曲线为与构成的折线,则此时的分类器是最完美的。

下图就是ROC曲线的一个示意图:
在这里插入图片描述
ROC曲线横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate)
接下来我们考虑ROC曲线图中的四个点和一条线。

第一个点,(0,1),即FPR=0, TPR=1,这意味着FN(false negative)=0,并且FP(false
positive)=0。这是一个完美的分类器,它将所有的样本都正确分类。
第二个点,(1,0),即FPR=1,TPR=0,类似地分析可以发现这是一个最糟糕的分类器,因为它成功避开了所有的正确答案。
第三个点,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true
positive)=0,可以发现该分类器预测所有的样本都为负样本(negative)。
第四个点(1,1),分类器实际上预测所有的样本都为正样本。经过以上的分析,我们可以断言,ROC曲线越接近左上角,该分类器的性能越好。

如何画ROC曲线:

对于一个特定的分类器和测试数据集,显然只能得到一组FPR和TPR结果,而要得到一个曲线,我们实际上需要一系列FPR和TPR的值,这又是如何得到的呢?我们先来看一下wikipedia上对ROC曲线的定义:

A receiver operating characteristic curve, i.e. ROC curve, is a
graphical plot that illustrates the diagnostic ability of a binary
classifier system as its discrimination threshold is varied.
译:ROC曲线是由一系列因区分阈值变化产生的点,用于描述二分类模型的判断能力

这里的关键在于 “its discrimination threshold is varied” ,因为对于一个二分类模型,它的输出结果其实是判断这个样本属于正样本的概率值,假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率
在这里插入图片描述
然后我们按照样本的score值,从大到小依次作为阈值,当样本score值大于等于阈值时则判定为正样本,否则为负样本。
例如第一个阈值取0.9,这时只有id=1的样本被预测为正样本,其余都是负样本,此时TPR=1/1+9=0.1, FPR=0/0+10=0。还例如:对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。

详细如下:
在这里插入图片描述
由此我们便得到了一组(FPR,TPR)的值,可以绘制出ROC曲线:
在这里插入图片描述
当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当threshold取值越多,ROC曲线越平滑。

4.2 AUC

AUC(Area Under the Curve)是指ROC曲线下的面积,使用AUC值作为评价标准是因为有时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而AUC作为数值可以直观的评价分类器的好坏,值越大越好。
在这里插入图片描述
AUC是ROC曲线下的面积。
AUC的取值为[0.5-1],0.5对应于对角线的“随机猜测模型”。
AUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类。

从AUC判断分类器(预测模型)优劣的标准:
在这里插入图片描述

例如一个模型的AUC是0.7,其含义可以理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分(概率)高于对负样本的打分。

三种AUC值示例:
在这里插入图片描述
简单说:AUC值越大的分类器,正确率越高。

那么为什么要用AUC作为二分类模型的评价指标呢?为什么不直接通过计算准确率来对模型进行评价呢?
因为机器学习中的很多模型对于分类问题的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类,而阈值的设定直接影响了准确率的计算。也就是说AUC越高说明阈值分割所能达到的准确率越高。

小练习:

以下说法正确的是( ABD)。【不定项】
A 随着阈值的降低,TPR与FPR都会增大。
B TPR与召回率的值是相同的。
C 如果AUC的值非常低,例如,0.1,则该模型效果很差,也很难调优。
D 无论是什么分类模型,ROC曲线一定会经过(0, 0)与(1,1)这两个点。

4.3 ROC曲线程序示例

我们首先来看一个简单的程序示例,借此来说明sklearn库中,ROC曲线的实现细节。

4.3.1 roc_curve函数的参数
import numpy as np
from sklearn.metrics import roc_curve, auc, roc_auc_score
y = np.array([0, 0, 1, 1])
scores = np.array([0.2, 0.4, 0.35, 0.8])
# 返回ROC曲线相关值。返回FPR,TPR与阈值。当分值达到阈值时,将样本判定为正类,
# 否则判定为负类。
# y_true:二分类的标签值(真实值)。
# y_score:每个标签(数据)的分值或概率值。当该值达到阈值时,判定为正例,否则判定为负例。
# 在实际模型评估时,该值往往通过决策函数(decision_function)或者概率函数(predict_proba)获得。
# pos_label:指定正例的标签值。
fpr, tpr, thresholds = roc_curve(y, scores, pos_label=1)
print(f"fpr:{fpr}")
print(f"tpr:{tpr}")
print(f"thresholds:{thresholds}")
# auc与roc_auc_score函数都可以返回AUC面积值,但是注意,两个函数的参数是不同的。
print("AUC面积值:", auc(fpr, tpr))
print("AUC面积得分:", roc_auc_score(y_true=y, y_score=scores))
#### 3.3.2 roc_curve函数的返回值

结果:
在这里插入图片描述
1.8 是怎么来的?
1.8是阈值中最大值+1(0.8+1)得来的。为什么这么算?因为要使得最开始得到的所有阈值都不会超过这个值,才能过(0,0)和(1,1)这两个点。

4.3.2 roc_curve函数的返回值

roc_curve函数具有3个返回值:

  • fpr 对应每个阈值(thresholds)下的fpr值。
  • tpr 对应每个阈值(thresholds)下的tpr值。
  • thresholds 阈值。

roc_curve函数会从y_score参数中,选择部分元素作为阈值(选择哪些元素属于实现细节,会根据sklearn版本的不同,也可能会有所差异。),然后进行降序排列,作为roc_curve函数的第3个返回值(thresholds)。同时,根据thresholds中的每个元素(阈值),分别计算fpr与tpr。

iris = load_iris()
X, y = iris.data, iris.target
X = X[y != 0, 2:]
y = y[y != 0]
y[y == 1] = 0
y[y == 2] = 1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25,
random_state=2)
# lr = LogisticRegression(multi_class="multinomial", solver="lbfgs")
lr = LogisticRegression(multi_class="ovr", solver="liblinear")
lr.fit(X_train, y_train)
# 使用概率来作为每个样本数据的分值。
probo = lr.predict_proba(X_test)
fpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1],
pos_label=1)
display(probo[:, 1])
# 从概率中,选择若干元素作为阈值,每个阈值下,都可以确定一个tpr与fpr,
# 每个tpr与fpr对应ROC曲线上的一个点,将这些点进行连接,就可以绘制ROC曲线。
display(thresholds)

结果:
在这里插入图片描述

# 随着阈值的不断降低,fpr与tpr都在不断的增大。
fpr, tpr

结果:
在这里插入图片描述

4.3.3 绘制ROC曲线
有了fpr与tpr的值,绘制ROC曲线是非常容易的,只不过是最简单的一个plot而已。
plt.figure(figsize=(10, 6))
plt.plot(fpr, tpr, marker="o", label="ROC曲线")
plt.plot([0,1], [0,1], lw=2, ls="--", label="随机猜测")
plt.plot([0, 0, 1], [0, 1, 1], lw=2, ls="-.", label="完美预测")
plt.xlim(-0.01, 1.02)
plt.ylim(-0.01, 1.02)
plt.xticks(np.arange(0, 1.1, 0.1))
plt.yticks(np.arange(0, 1.1, 0.1))
plt.xlabel("False Positive Rate(FPR)")
plt.ylabel("True Positive Rate(TPR)")
plt.grid()
plt.title(f"ROC曲线-AUC值为{auc(fpr, tpr):.2f}")
plt.legend()
plt.show()

在这里插入图片描述

5、总结

混淆矩阵的含义。
正确率,精准率,召回率与调和平均值F1的含义。
ROC与AUC。

在这里插入图片描述
参考资料:
1、https://blog.csdn.net/zuolixiangfisher/article/details/81328297
2、https://www.jianshu.com/p/2feb00839154
3、https://www.cnblogs.com/kamekin/p/9788730.html
4、https://www.jianshu.com/p/c61ae11cc5f6

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值