交叉验证

阿华Go

于 2018-04-07 18:24:54 发布

阅读量1.4k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/u014038273/article/details/79843707

版权

机器学习专栏收录该内容

33 篇文章 0 订阅

订阅专栏

在机器学习中，我们总会提到交叉验证，那么交叉验证到底是什么呢？下面我们就来进行一个简短的介绍！

原因：

在机器学习里，一般我们并不把所有的训练集用于训练模型，而是将训练集分成训练集和验证集，原因在于，如果我们将所有的训练集用于训练模型的话，直到在测试集阶段才能进行检验我们训练出来的模型的性能，有可能耗费了大量的资源之后得到一个很糟糕的模型，如果我们在训练阶段就可以进行检验，挑选合适的参数进行模型的训练，岂不是可以解决这个问题，没错，正是基于这个思路，大佬们提出了交叉验证（cross-validation）。

方法：

1）将集合分为n个训练集和测试集（），进行训练，这样我们可以得到n个模型；
2）在对应的验证集上进行验证，这样可以得到不同模型在验证集上的表现，具体的就是不同模型在验证集上的误差ei(i=1~n);
3）将误差进行排序，选定最优模型所对应的参数，然后用所有的数据再次进行训练得到一个新的模型，所以虽然中间训练了多个模型，但最后我们只取最优的模型的参数，用全部数据去训练一个的新的模型，最后的输出模型为新的模型！

代表性：

1）LOOVC(Leave-one-out cross-validation)，留一验证，注意，这样会得到n个[n-1,1]的模型，其中[n-1,1]为对应的训练集和验证集的样本数，但这样需要的运算量非常大！

2）K-fold Cross Validation，即将数据分为k折，会得到k个[(k-1)*N/k,N/k]的模型，其中[(k-1)*N/k,N/k]为对应的训练集和验证集的样本数，但此时k的选取是一个很重要的参数，k值的选取直接影响我们所训练的模型的偏差-方差(bias-variance tradeoff)之间的平衡，一般我们对k-fold，我们根据经验选取5或者10。

更多：
交叉验证