交叉验证

最新推荐文章于 2025-01-15 15:57:57 发布

du_mengnan

最新推荐文章于 2025-01-15 15:57:57 发布

阅读量5.9k

点赞数 3

分类专栏：机器学习文章标签：机器学习交叉验证 K重交叉验证模型选择特征选择

本文链接：https://blog.csdn.net/u012526120/article/details/49105563

版权

本文介绍了在机器学习中如何有效地选择模型参数和特征。验证集用于评估模型，但过度依赖可能导致过拟合。交叉验证，尤其是K重交叉验证，提供了解决方案，既能充分利用数据又减少过拟合风险。文中通过示例代码说明了如何使用交叉验证选择最佳超参数和特征比例，强调其在模型选择和特征选择中的重要作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 验证集

在使用一个机器学习模型时，通常有一些参数需要设置，比如：

KNN中的 k <script id="MathJax-Element-293" type="math/tex">k</script>，距离函数；
SVM算法中的(C, gamma)；
GBDT中的迭代次数，树的深度；

这些参数称为超参数（hyperparameters），好的参数可以极大提高算法的预测性能。选择合适的模型参数过程称为模型选择（model selection）。那么如何选择这些参数呢？在模型学习过程中，通常做法是将数据分为训练集和测试集，其中训练集用来训练模型，测试集用来预测模型在未知数据上的预测性能。需要注意的是，绝对不能用测试集来调整这些超参数。

用测试集来调整参数的危害之一是，模型可能在测试集上取得较好地预测性能，然而当我们实际部署模型时，却发现性能很差。实际上，模型对测试集产生了过拟合。换种思路看这个问题的话，若我们使用测试集调整参数，实际上我们已经将测试集当做训练集来使用，这样模型在看的见的数据上取得不错的性能，当部署模型到实际应用时，模型对于没见过的数据预测性能很差，也就是说模型泛化能力很弱。

正确的做法是在整个过程中，测试集只能被使用一次，而且是在最后一步。那么怎么样调整这些参数呢，可以将训练集分为两部分，其中数据多的部分用来训练模型，数据少的部分，用来调整参数，这部分也称为验证集。