机器学习模型评估（上）

最新推荐文章于 2024-06-27 17:22:44 发布

爱吃仓鼠的火锅

最新推荐文章于 2024-06-27 17:22:44 发布

阅读量1.2k

点赞数

文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/m0_57999433/article/details/122786350

版权

1. 基本概念

错误率（error rate）：分类错误的样本（a）占样本总数（m）的比例，即：错误率E=a/m。

精度（accuracy）：分类正确的样本（m-a）占样本总数（m）的比例，即：精度=1-错误率。

我们所希望的是，模型的错误率越低越好，而精度越高越好，然而当模型将训练样本学的“太好”时，很可能会把训练样本自身特点当做所有潜在样本的一般性质，导致泛化性能下降，这种现象我们称为“过拟合”(overfitting)，过拟合是无法避免的，我们所能做的只是“缓解”，或者说减少其风险。

与“过拟合”相对的是“欠拟合”（underfitting），指对训练样本的一般性质尚未学好，通常是由学习能力低下而造成的，一般比较容易克服。

2. 评估方法

我们通常需要通过实验测试对模型的泛化误差进行评估，因此需要使用“测试集”来测试模型对新样本的判别能力。一般情况下，我们假设测试样本是从样本的真实分布中独立同分布采样获得，并且：测试集应该尽可能与训练集互斥，即测试样本尽量不在训练集中出现、未在训练过程中使用过。

而我们只有一个包含m个样例的数据集D，既要训练又要测试，因此我们需要对D进行适当处理，从而产生训练集S和测试集T。

1）留出法

直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T。

注意，训练集和测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响。

单次使用留出法得到的估计结果往往不够稳定可靠，在使用留出法时，一般要采用若干次随机划分、重复进行试验评估后取平均值作为留出法的评估结果。

有关比例的选取：常见做法是将大约2/3~4/5的样本用于训练，剩余样本用于测试，测试集一般至少包含30个样例。

2）交叉验证法

将数据集D划分为k个大小相似的互斥子集Di，每个子集Di应尽可能保持数据分布的一致性。每次用k-1个子集的并集作为训练集，剩下的那个子集作为测试集，这样一共可以进行k次训练和测试，最终返回的是这k个测试结果的均值，通常把交叉验证法成为“k折交叉验证”。k常用的取值是10，此时成为10折较差验证，其他常用的k值有5、20等。

与留出法类似，需要减少因样本划分不同而引入的差别，因此对于k折交叉验证通常要随机使用不同的划分重复p次，最终评估结果是这p次交叉验证结果的均值，常见如“10次10折交叉验证”。

特别地，若数据集D包含m个样例，令m=k，得到了交叉验证法中的特例：留一法（LOO）。留一法不受随机样本划分方式的影响，因为此时只有唯一的划分方式。因此，留一法的评估结果往往被认为比较准确。但是当数据集比较大时，该方法的计算开销也很大。

3）自助法

给定包含m个样例的数据集D，每次随机从数据集D中挑选一个样例拷贝到新数据集D'，再将该样例放回D中，重复执行m次后，我们得到了包含m个样例的数据集D'。我们将D'用作训练集，将D\D'作为测试集。

该方法适合数据集较小，难以有效划分训练集和测试集时。而当数据量足够时，留出法和交叉验证法更常用。

4）调参

在模型选择完成后，学习算法和参数配置已选定，此时应该用数据集D重新训练模型。此时用于评估测试的数据集常被称为“验证集”。

性能度量

我们可以用错误率和精度描述模型性能，但这并不能满足所有任务需求，因此我们需要引入其他度量值。

对于二分类问题，我们可以将样本根据真实类别和预测结果划分为：真正例（true positive）、假正例（false positive）、真反例（true negative）、假反例（false negative），这四个情形加起来等于样例总数。我们根据分类结果可以得到“混淆矩阵”（confusion matrix）：