[集成学习]task03:方差与偏差理论

[集成学习]task03:方差与偏差理论

由于在建模过程中使用的是训练数据集,而我们要预测的是测试数据集,因此建立的模型不仅要在训练数据集中表现良好,还要在测试数据集中表现良好。也是就说,Loss Function的值在训练数据集与测试数据集中都是最小的。

  1. 训练均方误差与测试均方误差的关系
    随着训练均方误差的逐渐减小,测试均方误差先减小后增大。这是由于当训练数据集的均方误差很小时,模型过拟合,缺乏泛性。

  2. 估计测试均方误差
    估计测试均方误差时可以使用间接估计或直接估计的方法。
    · 间接估计(训练误差修正)
    用训练误差加上一个关于特征个数的惩罚来估计测试均方误差。(惩罚与特征数量成正比,训练误差与特征数量成反比)
    在这里插入图片描述
    其中,BIC的惩罚力度最大。

· 直接估计(交叉验证)
把训练样本分成K等分,然后用K-1个样本集当做训练集,剩下的一份样本集为验证集去估计由K-1个样本集得到的模型的精度,这个过程重复K次取平均值来估计测试均方误差。
4. 模型选择(方法)
· 最优子集选择
· 向前逐步选择(计算效率高)
5. 降低模型方差
· 岭回归
在线性回归的损失函数的基础上添加对系数的约束或者惩罚,但该方法不能进行特征选择,这是由于该方法的模型系数只能趋向于0,但不能等于0,相当于给每个特征一个对应的权重。
· lasso回归
与岭回归相似,但该方法能进行特征选择
· 降维(如主成分分析法)
通过映射,将高维中的数据点映射到低维中,可以去除冗余信息及噪音信息,提高准确率。

作业

在这里插入图片描述
(2)偏差与方差和误差之间的关系
误差=偏差+方差

(4)岭回归与lasso回归的异同点
相同:两种方法原理大致相同,运用场景相同。
不同:岭回归不能进行特征选择,而lasso可以。

(8)尝试使用sklearn,对一组数据先进行特征的简化(使用三种方式),再使用回归模型,最后使用网络搜索调参,观测三种方法的优劣

参考
[1]https://github.com/datawhalechina/ensemble-learning
[2]https://blog.csdn.net/weixin_39932692/article/details/111367526

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值