十折交叉验证python_Python机器学习：6.2 K折交叉验证评估模型性能

最新推荐文章于 2022-05-05 20:12:45 发布

weixin_39713219

最新推荐文章于 2022-05-05 20:12:45 发布

阅读量1.5k

点赞数

文章标签：十折交叉验证python

本文介绍了评估机器学习模型泛化能力的方法，包括holdout交叉验证和k折交叉验证。强调了k折交叉验证在模型选择过程中的稳定性，并探讨了k值的选择。还提到了sklearn库中的分层k折交叉验证和cross_val_score方法。

摘要由CSDN通过智能技术生成

训练机器学习模型的关键一步是要评估模型的泛化能力。如果我们训练好模型后，还是用训练集取评估模型的性能，这显然是不符合逻辑的。一个模型如果性能不好，要么是因为模型过于复杂导致过拟合(高方差)，要么是模型过于简单导致导致欠拟合(高偏差)。可是用什么方法评价模型的性能呢？这就是这一节要解决的问题，你会学习到两种交叉验证计数，holdout交叉验证和k折交叉验证，来评估模型的泛化能力。

holdout method

评估模型泛化能力的典型方法是holdout交叉验证(holdout cross validation)。holdout方法很简单，我们只需要将原始数据集分割为训练集和测试集，前者用于训练模型，后者用于评估模型的性能。

不过，在训练模型这一步，我们非常关心如何选择参数来提高模型的预测能力，而选择参数这一步被称为模型选择(model selection，译者注：不少资料将选择何种模型算法称为模型选择)，参数选择是非常重要的，因为对于同一种机器学习算法，如果选择不同的参数(超参数)，模型的性能会有很大差别。

如果在模型选择的过程中，我们始终用测试集来评价模型性能，这实际上也将测试集变相地转为了训练集，这时候选择的最优模型很可能是过拟合的。

更好的holdout方法是将原始训练集分为三部分：训练集、验证集和测试集。训练机用于训练不同的模型，验证集用于模型选择。而测试集由于在训练模型和模型选择这两步都没有用到，对于模型来说是未知数据，因此可以用于评估模型的泛化能力。下图展示了holdout方法的步骤：

当然holdout