模型评估与选择-CSDN博客

本文深入探讨了机器学习中的关键概念，包括误差、过拟合、欠拟合及其评估方法，如留出法、交叉验证法和自助法。同时，介绍了性能度量指标，如错误率、查准率、查全率、F1值、ROC与AUC，以及偏差与方差的概念，帮助理解学习算法的性能。

摘要由CSDN通过智能技术生成

经验误差与过拟合

常见概念

误差：学习器的实际预测输出与样本的真实输出之间的差异

经验误差：学习器在训练集上的误差

泛化误差：在新样本上的误差

过拟合：指学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象

欠拟合：指对训练样本的一般性质尚未学好

评估方法

留出法

定义：将数据集 D 划分为两个互斥的集合，其中一个集合作为训练集 S，另一个作为测试集 T，即 $D = S \cup T, S \cap T = \varnothing$ .在 S 上训练出模型后，用 T 来评估其测试误差，作为对泛化误差的估计。

不同的划分将导致不同的训练/测试集，相应的，模型的评估结果也会有差别。因此，单次使用留出法得到的估计结果往往不够稳定可靠，在使用留出法时，一般要采用若干次随机划分、重复进行试验评估后取平均值作为留出法的评估结果。

交叉验证法

先将数据集 D 划分成 k 个大小相似的互斥子集，即 $D = D_1 \cup D_2 \cup ... \cup D_k ，D_i \cap D_j = \varnothing (i\neq j ).$ 然后，每次用 k - 1 个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得 k 组训练/测试集，从而可进行 k 次训练和测试，最终返回这 k 个测试结果的均值。通常把这称为 k 折交叉验证， k 的取值影响着交叉验证评估结果的稳定性和保真性。将数据集 D 划分为 k 个子集存在多种划分方式，为减少因样本划分不同而引入的差别，k 折交叉验证通常要随机使用不同的划分重复 p 次，最终的评估结果为这 p 次 k 折交叉验证结果的均值。

自助法

定义：给定包含 m 个样本的数据集 D，我们对它进行采样产生数据集 $D^{'}$ ：每次随机从 D 中挑选一个样本，将其拷贝放入 $D^{'}$ ，然后再将该样本放回初始数据集 D 中，使得该样本在下次采样时仍有可能被采样到；这个过程重复执行 m 次后，我们就得到了包含 m 个样本的数据集 $D^{'}$ ，这就是自助采样的结果。