过拟合和欠拟合应对方法大全

最新推荐文章于 2023-08-28 14:42:38 发布

smartcat2010

最新推荐文章于 2023-08-28 14:42:38 发布

阅读量354

点赞数

分类专栏：经典机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smartcat2010/article/details/100674493

版权

经典机器学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

过拟合：

原因：

1. 模型太复杂，训练数据量太少（模型很好的记住了所有的训练样本，输入非训练样本统统都看运气）

2. 训练集和测试集样本分布不一致；

3. 训练集的噪音过大，导致模型只注意学习噪音了，忽略了真正有用的特征；

4. 训练迭代次数过多，导致模型学习了噪音和无用特征；

解决方法：

1. 减小模型复杂度，减小模型参数量；

1.1 减少神经网络的宽度、深度；

1.2 正则化：L1-Norm(模型参数降维作用), L2-Norm(易求导); 贝叶斯学派的角度是加入了模型参数符合高斯分布这一先验知识；奥坎姆剃刀律，简单的即使泛化性好的；

1.3 决策树的剪枝；

1.4 权值共享：CNN卷积核的权值共享，RNN每个时序单元之间的权值共享；

2. 数据增强；

2.1 图像数据上，进行旋转、反转、缩放、剪切、增加噪声等

2.2 过采样：随机过采样，近邻随机插值过采样，边界样本过采样；

2.3 用GAN网络或者强化学习模拟去“制造”假数据；

2.4 给数据增加噪声；给模型增加噪声（例如神经网络权值初始化使用0均值的高斯分布）

2.5 Batch Normalization: 通过对数据进行和同一mini-batch之间进行关联，增强了数据，提高了模型的泛化性；

2.6 输入数据的归一化（zscore）：相当于把数据拉回到了原点附近，减少过拟合的风险，加快了训练收敛速度；

3. Ensemble：（多个模型的组合可以弱化每个模型中的异常点的影响，保留模型之间的通性，弱化单个模型的特性）

3.1 bagging可降低模型的方差；

3.2 boosting既可降低模型的方差，也可降低模型的偏差；(Adaboost, GBDT, xgboost)

3.3 dropout（也是模型稀疏化的一种）: 把很多稀疏网络捆成一个分类器，类似于在模型角度了bagging;

3.4 Random-forest的特征采样(xgboost也用了)，也相当于弱化每个节点，通过多棵弱树构造一个强分类器；（Random-forest的多棵树也使用了样本的baggin)

4. Early stopping: 连续N轮迭代没有提高Validation-set上的accuracy，则停止训练；

5. N-fold交叉验证：减少噪音对模型的影响；

搞不懂：

对样本数据可能存在分类决策面不唯一，随着学习的进行,，BP算法使权值可能收敛过于复杂的决策面；

在神经网络模型中，可使用权值衰减的方法，即每次迭代过程中以某个小因子降低每个权值。

1. 添加新特征：当特征不足，或现有特征与样本label的相关性不强时，易过拟合。

可挖掘“上下文特征”“ID类特征”“组合特征”等新特征；FM、GBDT、Deep&Wide等自动挖掘组合特征的模型；

2. 增加模型的复杂度：线性模型中添加高次项；神经网络中增加深度或宽度；

3. 减小正则化系数

4. 使用迁移学习，复用类似任务的神经网络前几层，从而使小训练集也能得到效果不错的模型；

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
过拟合和欠拟合应对方法大全

过拟合：原因：1. 模型太复杂，训练数据量太少（模型很好的记住了所有的训练样本，输入非训练样本统统都看运气）2. 训练集和测试集样本分布不一致；3. 训练集的噪音过大，导致模型只注意学习噪音了，忽略了真正有用的特征；4. 训练迭代次数过多，导致模型学习了噪音和无用特征；解决方法：1. 减小模型复杂度，减小模型参数量； 1.1 减少神经网络的宽度、深度； ...
复制链接

扫一扫

专栏目录

smartcat2010 CSDN认证博客专家 CSDN认证企业博客

码龄12年

197: 原创

1万+: 周排名

6668: 总排名

37万+: 访问

: 等级

4886: 积分

219: 粉丝

258: 获赞

39: 评论

671: 收藏

私信

关注

热门文章

分类专栏

最新评论

NCCL的Double Binary Tree实现原理
yangyangv5: 博主请教一些问题，ring allreduce在设备数量足够大的时候可以近似看所 2S/B+SC,这部分性能与设备无关了，和tree相比tree在性能上的优势是什么呢？RingAllReduce，每次每个节点等量的发送和接收，所以接收到的加和完后，没有带宽再同时发送了这段话不是很理解
Tensorflow论文解读
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
Mesos+Docker+Tensorflow集群解决方案
CSDN-Ada助手: 有人说无监督学习才是AI的未来，否则会有多少人工就有多少智能，元芳你怎么看呢？
B树和Clustered/Non-Clustered index
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)增加除了各种控件外，文章正文的字数。
DeepSpeed MoE
柒免: 您好，请问您有成功运行实际的代码吗？多机多卡推理moe模型这种？想请教一下

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。