【西瓜书】模型评估与选择

最新推荐文章于 2024-07-24 16:16:03 发布

Suuuuperh

最新推荐文章于 2024-07-24 16:16:03 发布

阅读量433

点赞数

文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/krstin_chu/article/details/126721045

版权

模型评估

错误率&精度

m个样本，其中有a个分类错误；
错误率(error rate)： $E=\frac{a}{m}$

精度（accuracy）： $1-\frac{a}{m}$

误差

误差：学习器的实际预测输出与样本的真实输出之间的差异。
训练误差（经验误差）：学习器在训练集上的误差。
泛化误差：学习器在新样本上的误差。

过拟合&欠拟合

过拟合：学习器把训练样本自身的特点当成了所有潜在样本具有的一般性质，导致泛化性能下降的现象，一般由于学习器学习能力过强造成。
欠拟合：过拟合的相对面，指学习器对训练样本的一般性质尚未能掌握，一般由于学习器学习能力低下造成。

评估方法

实验测试法：使用一个与训练集互斥的、从样本真实分布中独立同分布采样而获得的数据集作为测试集，以测试集上的测试误差近似作为泛化误差，用以评估模型好坏。

处理数据集的方法

留出法

定义：直接将数据集D 划分为两个互斥的集，一个为训练集S，一个为测试集T，即D=S∪T，S∩T=Ø。
示例：D包含1000个样本，将其划分为S包含700个样本，T包含300个样本。

注：由于要保持S和T的分布的一致性，从采样的角度，通常采用分层采样的方式，即保留类别比例的采样方式。假设D有500正例，500反例，那么S将包含350正例，350反例，T将包含150正例，150反例。

缺点：留出法需要划分S与T的比例，如果S的比例过大，将会导致T较小，评估结果不准确，如果S比例过小，则S与D有较大差别，从而降低评估的准确性。

注：一般做法是将大约 $\frac{2}{3}$ ~ $\frac{4}{5}$ 的样本用于训练。

交叉验证法（k折交叉验证）

定义：将数据集D分为k个互斥、大小相似的子集，即D=D₁∪D₂∪…∪D_k,D_i∩D_j=Ø（i≠j）。每个子集分布一致。每次选取k-1个子集的并集作为训练集，余下的子集作为测试集。这样我们可以得到k次训练和测试的结果，最终返回k次结果的均值。

注：k常取10。为了减少因划分而产生的误差，k折交叉验证通常要使用不同的划分重复p次，最终的评估结果是这p次的均值。常见的有10次10折交叉验证法。

留一法：k折交叉验证的特例。当样本数为m，k=m时，每个子集只含有一个样本。
优点：训练集只比初始数据集少一个样本，因此在绝大多数情况下，留一法被实际评估的模型与期望评估用的D训练出的模型很相似。留一法的评估结果往往认为比较准确。
缺点：当样本量过大时，计算开销是难以忍受的。

自助法（bootstrapping）

自主采样（bootstrap sampling）：给定包含m个样本的数据集D，我们对其进行采样产生数据集D’：每次随机从D中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D中，使得该样本在下次采样时任可能被采到；这个过程重读执行m次我们就得到包含m个样本的数据集D’。

注：样本在m次采样中不被采到的概率是(1- $\frac{1}{m}$ )^m，取极限得 $\lim\limits_{m\rightarrow\infty}(1-\frac{1}{m})$ ^m= $\frac{1}{e}$ ≈0.386

自助法：在数据集D中，通过自主采样获得D’，我们将D’作为训练集，D\D’作为测试集。实际评估模型与期望评估模型都有m个训练样本。这样的测试结果也叫做“外包估计(out-of-bag estimate)”;
优点：在数据集较小、难以有效划分数据集和训练集时很有用，对于集成学习等方法有很大好处。
缺点：自助法产生的数据集改变了原有数据集的分布，会引入估计偏差。