周志华机器学习西瓜书速记第二章绪论模型评估与选择（二）

最新推荐文章于 2022-01-12 10:32:50 发布

我对算法一无所知

最新推荐文章于 2022-01-12 10:32:50 发布

阅读量270

点赞数

分类专栏：机器学习算法文章标签：机器学习周志华西瓜书

本文链接：https://blog.csdn.net/qq_31267769/article/details/102672462

版权

20 篇文章 4 订阅

订阅专栏

对模型的泛化性能进行评估，不仅需要有效可的评估方法，还要有模型的泛化能力的评价标准，这就是性能度量。

对预测任务就要把模型对于每个输入的预测效果f(x)与真实的结果进行比较。

回归任务最常用的性能度量是“均方误差”，就是类似数学方差。即实际输出与预期输出做差求平方在求均值。

错误率与精度是分类任务中最常用的两种性能度量。

首先，引入概念“混淆矩阵”。

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例（Ture Positive）、假正例（False Positive）、真反例（True Negetive）、假反例（False Negetive）。

令TP、FP、TN、FN分别表示这四种情况。

则有如下混淆矩阵：

则查准率P和查全率R分别定义为：

P = TP/(TP+FP) 预测结果为正例的全部情况中，真实情况也为正例的比例

R = TP/(TP+FN) 真实情况为正例的全部情况中，预测结果也为正例的比例

查准率高时查全率往往低，查全率高时查准率往往低。

由查准率和查全率可以画出一个曲线，叫做P-R曲线，纵轴为查准率P，横轴为查全率R。（下图来源：https://blog.csdn.net/dpengwang/article/details/93461022）

在这里插入图片描述

当一条曲线完全包住另一条曲线时，称这个学习器效果更好。例如，B与C相比，B的效果更好，但是A与B相交不能得出哪个学习器效果更好，因此要引入一些指标来衡量不同的学习器学习效果。

例如，引入平衡点BEP这个度量，即比较P=R的时候的性能来衡量学习器的性能。图中条角平分线就是BEP。

更常用的是F1，F1 = 2PR/(P+R) = 2TP/(样例总数+TP-TN)

F1的一般形式是Fβ：

Fβ=（1+β^2)*P*R/((β^2*P)+R)

当β=1时，Fβ即为F1，当β<1时，查准率有更大影响，当β>1时查全率又更大影响。

当进行多多次训练/测试时会产生多个二分类混淆矩阵，或者在多数据上进行训练/测试，在或者对于多酚类问题时两两对应一个混淆矩阵，因此我们需要在多个混淆矩阵上总额和考察查准率和查全率。

我们对此可以分别计算出多个矩阵的查准率P，查全率R，再计算出来平均值，得到宏查准率（Macro-P）和宏查全率（Macro-R），及相应的宏F1（Macro-F1）。

还可以将TP FP TN FN进行平均在求得微查准率（Micro-P）、微查全率（Micro-R）及相应的微-F1（Micro-F1）。

ROC曲线则是从这个角度出发来研究学习器泛化性能的工具。

ROC(Receiver Operating Characteristic) 受试者工作特征。

TPR=TP/（TP+FN）

FPR=FP/（TN+FP）

AUC可以对ROC曲线下的面积求和而得。

关注

专栏目录