【李沐】模型防止过拟合、欠拟合的一些策略-包括L1,L2正则化的一个理解

é«

已于 2022-03-27 20:22:38 修改

阅读量271

点赞数

分类专栏：李沐《动手学深度学习》文章标签：机器学习回归 sklearn

于 2022-03-07 09:41:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43476632/article/details/123321488

版权

李沐《动手学深度学习》专栏收录该内容

13 篇文章 4 订阅

订阅专栏

本文探讨了在机器学习中如何根据数据量选择合适的模型复杂度。简单数据通常匹配简单模型，而复杂数据则需要更复杂的模型。训练数据量的增加有助于减少过拟合，允许尝试更复杂的模型。L1和L2正则化作为防止过拟合的手段，L1产生稀疏模型，L2通过限制权重大小来避免过拟合。暂退法（dropout）作为一种有效的抗过拟合策略，仅在训练过程中使用，不影响验证阶段。这些技术在实际应用中帮助提升模型的泛化能力。

摘要由CSDN通过智能技术生成

1.首先在模型选择上，简单数据，应该使用简单的模型，复杂的数据用复杂的模型

2. 训练数据集中的样本越少，我们就越有可能（且更严重地）过拟合。 随着训练数据量的增加，泛化误差通常会减小。此外，一般来说，更多的数据不会有什么坏处。对于固定的任务和数据分布，模型复杂性和数据集大小之间通常存在关系。给出更多的数据，我们可能会尝试拟合一个更复杂的模型。能够拟合更复杂的模型可能是有益的。如果没有足够的数据，简单的模型可能更有用。对于许多任务，深度学习只有在有数千个训练样本时才优于线性模型。

3.L1,L2,正则化

首先加入L1或L2正则化是对w的一个限制即J=L（w） s.t. f（w）。经过拉格朗日转为无约束问题，加在L后面从而有我们熟悉的形式。

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择
L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合

而正则化前面的系数 α，可以控制 L 图形的大小。 α越小， L的图形越大（上图中的黑色方框）； α 越大， L的图形就越小，可以小到黑色方框只超出原点范围一点点，这是最优点的值 (w1,w2)=(0,w)中的 w可以取到很小的值。

其实L2正则化还有着熵最大的表现，

4.暂退法（dropout）：一种无偏向（unbiased）（预期是E[x′]=x。x′是注入噪声后的数据）的方式注入噪声。

暂退法可以避免过拟合，它通常与控制权重向量的维数和大小结合使用的。
暂退法将活性值hh替换为具有期望值hh的随机变量。
暂退法仅在训练期间使用。（暂退法是对数据加入了噪声，对于验证的时候我们并不需要对数据有任何噪声的加入）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。