[集成学习]task03：方差与偏差理论

最新推荐文章于 2021-08-22 19:59:25 发布

Kyno_su

最新推荐文章于 2021-08-22 19:59:25 发布

阅读量164

点赞数

分类专栏：集成学习文章标签： python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51398701/article/details/118880938

版权

集成学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

[集成学习]task03：方差与偏差理论

由于在建模过程中使用的是训练数据集，而我们要预测的是测试数据集，因此建立的模型不仅要在训练数据集中表现良好，还要在测试数据集中表现良好。也是就说，Loss Function的值在训练数据集与测试数据集中都是最小的。

训练均方误差与测试均方误差的关系
随着训练均方误差的逐渐减小，测试均方误差先减小后增大。这是由于当训练数据集的均方误差很小时，模型过拟合，缺乏泛性。
估计测试均方误差
估计测试均方误差时可以使用间接估计或直接估计的方法。
· 间接估计（训练误差修正）
用训练误差加上一个关于特征个数的惩罚来估计测试均方误差。（惩罚与特征数量成正比，训练误差与特征数量成反比）

其中，BIC的惩罚力度最大。

· 直接估计（交叉验证）
把训练样本分成K等分，然后用K-1个样本集当做训练集，剩下的一份样本集为验证集去估计由K-1个样本集得到的模型的精度，这个过程重复K次取平均值来估计测试均方误差。
4. 模型选择（方法）
· 最优子集选择
· 向前逐步选择（计算效率高）
5. 降低模型方差
· 岭回归
在线性回归的损失函数的基础上添加对系数的约束或者惩罚，但该方法不能进行特征选择，这是由于该方法的模型系数只能趋向于0，但不能等于0，相当于给每个特征一个对应的权重。
· lasso回归
与岭回归相似，但该方法能进行特征选择
· 降维（如主成分分析法）
通过映射，将高维中的数据点映射到低维中，可以去除冗余信息及噪音信息，提高准确率。

作业

在这里插入图片描述
（2）偏差与方差和误差之间的关系
误差=偏差+方差

（4）岭回归与lasso回归的异同点
相同：两种方法原理大致相同，运用场景相同。
不同：岭回归不能进行特征选择，而lasso可以。

（8）尝试使用sklearn,对一组数据先进行特征的简化（使用三种方式），再使用回归模型，最后使用网络搜索调参，观测三种方法的优劣

参考：
[1]https://github.com/datawhalechina/ensemble-learning
[2]https://blog.csdn.net/weixin_39932692/article/details/111367526

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
[集成学习]task03：方差与偏差理论

**[集成学习]task03：方差与偏差理论**由于在建模过程中使用的是训练数据集，而我们要预测的是测试数据集，因此建立的模型不仅要在训练数据集中表现良好，还要在测试数据集中表现良好。也是就说，Loss Function的值在训练数据集与测试数据集中都是最小的。训练均方误差与测试均方误差的关系随着训练均方误差的逐渐减小，测试均方误差先减小后增大。这是由于当训练数据集的均方误差很小时，模型过拟合，缺乏泛性。估计测试均方误差估计测试均方误差时可以使用间接估计或直接估计的方法。· 间
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。