机器学习-学习笔记（二）第二章模型评估

最新推荐文章于 2024-03-02 15:14:39 发布

Avlon

最新推荐文章于 2024-03-02 15:14:39 发布

阅读量788

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/Avlon/article/details/81013973

版权

机器学习专栏收录该内容

16 篇文章 3 订阅

订阅专栏

本文详细介绍了机器学习中模型评估的基本概念，如错误率、精度、过拟合与欠拟合，以及评估方法，包括留出法、交叉验证法和自助法。此外，还讨论了性能度量标准，如均方误差、查准率、查全率、F1分数，以及ROC曲线和AUC。最后，文章提到了比较学习器性能的统计检验，如t检验、McNemar检验、Friedman检验和Nemenyi后续检验。

摘要由CSDN通过智能技术生成

西瓜书第二章的笔记，本章主要是如何评估一个学习算法的各种方法，类似传统算法书中用时间复杂度和空间复杂度来评估类似，机器学习算法的评估要复杂得多。

一、基本概念

错误率（error rate）-分类错误的样本数占样本总数的比例，在m个样本中有a个样本分类错误，则错误率E=a/m，则精度（accuracy）为1-a/m。

误差（error）-学习算法在实际预测输出与样本的真实输出之间的差异，在训练集上的误差称为“训练误差（training error）”或“经验误差（empirical error）”，在新样本上的误差称为“泛化误差（generalization error）”。

过拟合（overfitting）-学习器把训练样本自身的特点当作了所有潜在样本都具有的一般性质，导致泛化性能下降。与之相对是欠拟合（underfitting）。

测试集（testing set）-用于测试学习器的泛化误差的样本集。

验证集（validation set）-模型评估与选择中用于评估测试的数据集，验证集一般用于调参。

二、评估方法

留出法（hold-out）-直接将数据集D划分为两个互斥的集合，分别是训练集S和测试集T，在S上训练模型，用T来评估测试误差作为对泛化误差的估计。

在采用留出法时训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的差别而对最终结果产生影响，从采样角度来看数据集的划分过程，保留类别比例的采样方式通常称为“分层采样”。并且因为单次留出法得到的估计结果往往不稳定可靠，所一般要采用若干次随即划分、重复进行实验评估后取平均值作为留出法的评估结果。

留出法面临S和T的划分矛盾，即S过大则模型更接近于D的训练结果但是T的评价结果不准确，T过大则S和D的差别扩大，降低评估结果的保真性。

交叉验证法（cross validation）-将数据集D划分为k个大小相似的互斥子集，即，每个子集Di都尽可能保持数据分布的一致性，每次用k-1个子集的并集作为训练集，余下的作为测试集，这样可以进行k次训练和测试，最终返回k个测试结果的均值。该方法又称k折交叉验证（k-fold cross validation）。

为减少因样本划分不同引入的差别，k折交叉验证通常要随机使用不同的划分重复p次，最终评估结果取均值。

留一法（leave-one-out）属于交叉验证法的特例，假定数据集D中包含m个样本，若令k=m便是留一法，且留一法不受样本划分方式的影响，留一法的缺点是当数据量较大时训练m个模型开销过大。

自助法（bootstrapping）-一种可以减少训练样本规模不同造成的影响，同时还能比较高效的进行实验评估的方法。给定包含m个样本的数据集D，我们对其进行有放回的随机抽取，获得数据集C，重复执行m次后，得到一个包含m个样本的数据集C，通过自助采样，D中约有36.8%的样本不会出现在C中。自助法在数据集较小、难以有效划分训练/测试集时很有用。

三、性能度量

先列举一些接下来要用的假设量，样例集，其中是示例的真实标记，学习算法f，要评估其性能则其预测结果f(x)与真实标记y进行比较，下面介绍一些简单的指标。

均方误差（mean squared error）-回归任务最常用的性能度量

更一般的，对于数据分布D和概率密度函数p(x)，均方差描述为

错误率

其中是指示函数，x为真时取1否则取0，精度定义为

而对于数据分布D和概率密度函数p(x)，错误率和精度可以描述为

查准率（precision）-检索出来的信息中有多少是需要的。

查全率（recall）-需要的信息由多少被检索出来。

对于二分类问题，可将样例根据其真是类别与学习器预测类别的组合划分为真正例（true positive）、假正例（false positive）、真反例（true negative）、假反例（false negative），则查准率P和查全率R可以分别定义为，查全率和查准率是一对矛盾值：

根据查全率和查准率可以画出P-R图，P-R图直观地显示出学习器在样本总体上的查全率、查准率，可以用于比较学习器之间的性能，从图上可用曲线覆盖面积来进行比较还可以使用平衡点（break-even point）-查准率=查全率进行比较，更长用的是F1度量。

F1度量是基于查准率和查全率的调和平均

F1的更一般形式Fβ可以反映对查全率和查准率的不同偏好，Fβ是查全率和查准率的加权调和平均，定义为

β>1时查全率有更大影响，β<1时查准率有更大影响。对于多分类任务，当我们需要n个二分类混淆矩阵上综合考察查准率和查全率。一种是先在各混沌矩阵上分别计算再求平均，便可得到宏查准率（macro-P）、宏查全率（macro-R）、宏F1（macro-F1）：

也可以先分别计算TP、FP、TN、FN等值，再计算出微查全率（micro-R）、微查准率（micro-P）、微F1（micro-F1）。

许多学习算法会为样本产生一个概率值，根据概率值是否达到阈值来进行分类，那么我们可以将所有的样本根据其概率值进行排序，排列本身的质量好坏，体现了综合考虑算法在不同任务下的“期望泛化性能”的好坏，可以理解为如果我们将样本按照真实分类排序即正例在前反例在后那么更好的算法可以使样本更靠近真实排序，ROC曲线是研究排序质量的有力工具。真正例率（True Positive Rate，TPR）和假正例率（False Positive Rate，FPR）是绘制ROC曲线的关键量，分别定义为

ROC曲线的绘制过程，首先将样本按预测概率排序，然后按顺序逐个选择某个样本，将该样本之前的样本均视为正例之后的样本视为反例，计算TPR和FPR，以TPR为纵轴、FPR为横轴，根据样本点可以绘制出ROC曲线，根据比较ROC曲线与横轴所围面积AUC的大小可以判断两个学习算法的性能优劣。因为TPR和FPR的取值都在0-1之间，所以ROC曲线坐标轴所围成的总面积为1，AUC考虑的是样本预测的排序质量，而排序的误差可以定位为排序的损失，也就是对排序的误差进行量化得到，对于给定的m+个正例和m-个反例，令D+和D-分别表示正、反例集合：