评估方法、性能度量和比较检验

最新推荐文章于 2025-03-28 12:00:03 发布

tuqinag

最新推荐文章于 2025-03-28 12:00:03 发布

阅读量1.1w

点赞数 2

分类专栏：机器学习算法文章标签：机器学习

本文链接：https://blog.csdn.net/tuqinag/article/details/54730373

版权

本文介绍了机器学习中模型评估的关键方法，包括留出法、交叉验证和自助法，以及性能度量如准确率、召回率、F1分数和ROC曲线。同时探讨了比较检验中的假设检验和交叉验证t检验，强调了在评估和比较模型性能时需要注意的统计学原则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习中模型的评估方法、性能度量和结果的检验方法

在对算法进行训练时，我们必须要有相应的数据。我们并不能在所有数据上进行训练，否则就没有数据来对算法的性能进行验证了。这就涉及到训练集与测试集划分的问题，即评估方法。

算法在训练好了之后，需要将其在数据集上进行测试，如何来衡量测试的结果，这就是性能的度量。

有了实验评估方法和性能度量，看起来就能对学习算法的性能进行评估比较了：先使用某种实验评估方法测得学习算法的某个性能度量结果，然后对这些结果进行比较。但怎样来做这个比较呢？是直接取得性能度量的值然后比较吗？实际上，机器学习中性能比较这件事要复杂的多。这里涉及几个重要的因素：首先，我们希望比较的是泛化性能，然而通过实验评估方法获得的是测试集上的性能，两者对比的结果可能未必相同；第二，测试集上的性能与测试集本身的选择有很大的关系，且不论使用大小的测试集会得到不同的结果，即便使用同样大小的测试集，若包含的测试用例不一样，测试的结果也会有不同；第三，很多机器学习算法本身有一定的随机性，即便使用相同的参数设置在同一个测试集上多此运行，其结果也会有不同。所有要有检验的方法来获取结果的可信度。

评估方法

其实在机器学习中有三种类型的数据集，训练集、验证集和测试集。对于训练集，一般没有什么疑问。而测试集是实际中碰到的数据，也是机器学习算法在实际中运行中所碰到的数据，其实这个数据我们是没有办法获得的。而验证集呢，其实是跟训练集一起提供的，我们只是将其独立出来，用于估计算法的泛化误差。这也是我们平常所说的测试集。

测试集应该尽可能与训练集互斥，即测试样本尽量不在训练集中出现，未在训练过程中使用过。对于训练集与测试集的划分有几种常见的方法。

留出法

直接将数据集划分为两个互斥的集合，一个作为训练集一个作为测试集。

首先需要考虑的就是两个集合中样本数的比例。如果训练集中数据太多，则估计的误差结果可能不准确。如果训练数据太少，则有可能会造成欠拟合。一般来说，训练集的比例大约是2/3 ~ 4/5。

这种划分要尽可能保持数据分布的一致性，避免因数据划分引入额外的偏差而对最终的结果产生影响。即在训练集与测试集中每个类别的样本的比例应该尽可能与原数据集一致。

在给定两个集合中样本的比例之后，分割的方法又是多种多样的。一般采用若干次随机划分、重复进行实验评估后取平均值作为评估结果。

交叉验证

k折交叉验证是将数据集划分为k个互斥的子集，每个子集都要求尽可能保持数据分布的一致性。每次训练用k - 1个子集作为训练集，1个子集作为测试集，这样就可以进行k次训练和测试，最后输出k次结果的平均值。k最常见的取值为10。

与留出法一样，k个子集的划分同样有非常多的方式。为了减小因样本划分的不同而引入的差别，通常要进行多次k折交叉验证。

考虑下极端的情况，若k = m（m表示数据集的大小），这种方法称为留一法。留一法不会受随机划分的影响。留一法使用的训练集与初始数据集相比只少了一个样本，这就使得在绝大多数情况下，留一法中被实际评估的模型与期望评估的用完整数据集训练出的模型很相似。因此留一法的评估结果比较准确。留一法也存在其自身的缺陷：在数据集较大时，训练m个模型的计算开销是难以接受的。另外，留一法的评估结果未必永远比其他评估方法准确，因为『没有免费午餐』定理对评估方法同样准确。