集成学习之优化基础模型

最新推荐文章于 2024-09-11 12:11:23 发布

梦想家wmx

最新推荐文章于 2024-09-11 12:11:23 发布

阅读量333

点赞数

分类专栏：集成学习文章标签：人工智能机器学习 python

本文链接：https://blog.csdn.net/m0_47548496/article/details/115056605

版权

本文介绍了在机器学习中，如何处理模型在训练集和测试集上的表现差异，重点关注偏差、方差和测试误差的权衡。通过偏差-方差分解理解模型的过拟合和欠拟合，探讨特征提取、训练误差修正、交叉验证、正则化（如岭回归、Lasso回归）和降维（如PCA）等方法在优化模型性能中的作用。

摘要由CSDN通过智能技术生成

集成学习之优化基础模型

感谢Datawhale提供本次的学习机会。
在回归问题中，我们常用训练集去估计模型的参数，然后用测试集去预测。我们常会遇到的问题就是模型在训练集上的表现很好，但是在测试集上的表现却一般。我们所希望的是测试集与训练集的表现相近，或者说训练集优于测试集，这样我们所作的工作才是有意义的，我们可以从以下几个角度去考虑：
1.训练均方误差与测试均方误差：
在回归中，我们最常用的评价指标为均方误差，即：在这里插入图片描述，其中是样本 Xi应用建立的模型f预测的结果。如果我们所用的数据是训练集上的数据，那么这个
误差为训练均方误差，如果我们使用测试集的数据计算的均方误差，我们称为测试均方误差。一般而言，我们并不关心模型在训练集上的训练均方误差，我们关心的是模型面对未知的样本集，即测试集上的测试误差，我们的目标是使得我们建立的模型在测试集上的测试误差最小。那我们如何选择一个测试误差最小的模型呢？这是个棘手的问题，因为在模型建立阶段，我们是不能得到测试数据的，比如：我们在模型未上线之前是不能拿到未知且真实的测试数据来验证我们的模型的。在这种情况下，为了简便起见，一些观点认为通过训练误差最小化来选择模型也是可行的。这种观点表面看上去是可行的，但是存在一个致命的缺点，那就是ÿ