转：交叉验证和bias-tradeoff的权衡

最新推荐文章于 2024-08-08 09:09:42 发布

骁勇善栈

最新推荐文章于 2024-08-08 09:09:42 发布

阅读量354

点赞数

分类专栏： PYTHON_机器学习

PYTHON_机器学习专栏收录该内容

42 篇文章

订阅专栏

机器学习问题中总是讲到训练数据集和测试数据集，但在实际情况中，很多时候直到项目部署以后，才会得到真正的测试集。所以本质上讲，模型的学习使用的都是训练数据，所以模型对于未知数据的效果到底如何，并没有方法得到一个准确的指示。解决这个问题的一个较为简单的方法是hold-out方法。大致过程如下：

1）将可用数据集的一部分拿出来，这部分数据不参与模型的学习与训练过程

2）用剩余的数据集训练模型

3）将保留的这部分数据集用作测试集，对模型效果进行评估

4）如果对模型效果不错，就用全部的数据对模型进行训练

5）部署模型

这就是hold-out方法的大致过程，其中，采取何种策略选取保留的数据，1）到3）步迭代多少次，决定了通过该方法得到的模型其准确度如何。这个过程涉及方差和偏差的权衡，这里的方差和偏差都是针对测试数据集而言的。

1 The Validation Set Approach

将一般的数据用于训练模型，一般的数据用于测试模型。得到模型的误差估计后，可以再用之前用于测试的数据进行训练，之前训练的数据用于测试。这样，就会得到对于模型性能的两次评估情况。

这个方法存在两个主要缺点。第一个，只会得到两个对于模型的评估情况，虽然比没有测试集好一些，但仍有很大提升空间。第二个，保留一半的数据用于测试，使得偏差会较大。用一般数据集训练得到的模型并不能够和用全部数据集训练得到的模型相比。

2 Leave-one-out-cross validation(LOOCV)

这种方法将1）到3）步重复进行多次，每次迭代时，只有一条样本数据被拿出来，剩余数据用于对模型进行训练。采用这种方法，训练+测试进行的次数可以与数据集中样本数目一样多。由于每一条样本数据既能够作为训练数据，又能够作为测试数据（在不同的迭代中），这种方法称为交叉验证。该方法的优点是测试过程中的固有偏差（bias）几乎可以忽略不计：每次训练时几乎使用了全部数据，得到的模型和实际情况非常接近。

不过缺点是，测试中的方差会非常明显。每次只有一条样本数据用于测试，the variance in the estimates of your model’s error would be pretty high!（特别是当数据集中存在很多离群点时）。同时该方法的计算量也很大，模型的训练/测试次数和数据集中的样本数一样多，当数据集很大时，这种计算量会造成麻烦。

通过上述讨论，理想的测试过程是：

1）最小化测试偏差

用于训练的数据集要足够大，就是说每次hold-out时，不希望保留太多数据用于测试，这是为了保证用训练数据学习得到的模型，能够和最终用全部数据训练得到的模型尽可能相近似。

2）最小化训练方差

用于测试的数据集样本量应当是合理的，如果测试集样本量太小，则测试框架对于模型误差的估计就变得不可信，特别是当测试集不巧选取的是几个离群点。

3）训练+测试的过程应当进行多次，保证模型对于误差的估计能够尽可能低。

由于LOOCV存在的一些问题，一种更好的思路是k-fold cross-validation

3 k-fold Cross-Validation

这种思路能够使得模型在方差-偏差之间取得更好的权衡，并且能够保证模型自身具有较低的方差和偏差。过程大致如下：

1）将数据集随机的分成k个部分

2）迭代k次下列过程：

a.选择k个部分中的一个（当然要选择之前没选过的部分）