集成学习之优化基础模型

本文介绍了在机器学习中,如何处理模型在训练集和测试集上的表现差异,重点关注偏差、方差和测试误差的权衡。通过偏差-方差分解理解模型的过拟合和欠拟合,探讨特征提取、训练误差修正、交叉验证、正则化(如岭回归、Lasso回归)和降维(如PCA)等方法在优化模型性能中的作用。
摘要由CSDN通过智能技术生成

集成学习之优化基础模型

感谢Datawhale提供本次的学习机会。
在回归问题中,我们常用训练集去估计模型的参数,然后用测试集去预测。我们常会遇到的问题就是模型在训练集上的表现很好,但是在测试集上的表现却一般。我们所希望的是测试集与训练集的表现相近,或者说训练集优于测试集,这样我们所作的工作才是有意义的,我们可以从以下几个角度去考虑:
1.训练均方误差与测试均方误差:
在回归中,我们最常用的评价指标为均方误差,即:在这里插入图片描述,其中在这里插入图片描述是样本 Xi应用建立的模型f预测的结果。如果我们所用的数据是训练集上的数据,那么这个
误差为训练均方误差,如果我们使用测试集的数据计算的均方误差,我们称为测试均方误差。一般而言,我们并不关心模型在训练集上的训练均方误差,我们关心的是模型面对未知的样本集,即测试集上的测试误差,我们的目标是使得我们建立的模型在测试集上的测试误差最小。那我们如何选择一个测试误差最小的模型呢?这是个棘手的问题,因为在模型建立阶段,我们是不能得到测试数据的,比如:我们在模型未上线之前是不能拿到未知且真实的测试数据来验证我们的模型的。在这种情况下,为了简便起见,一些观点认为通过训练误差最小化来选择模型也是可行的。这种观点表面看上去是可行的,但是存在一个致命的缺点,那就是ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值