【李沐】模型防止过拟合、欠拟合的一些策略-包括L1,L2正则化的一个理解

本文探讨了在机器学习中如何根据数据量选择合适的模型复杂度。简单数据通常匹配简单模型,而复杂数据则需要更复杂的模型。训练数据量的增加有助于减少过拟合,允许尝试更复杂的模型。L1和L2正则化作为防止过拟合的手段,L1产生稀疏模型,L2通过限制权重大小来避免过拟合。暂退法(dropout)作为一种有效的抗过拟合策略,仅在训练过程中使用,不影响验证阶段。这些技术在实际应用中帮助提升模型的泛化能力。
摘要由CSDN通过智能技术生成

1.首先在模型选择上,简单数据,应该使用简单的模型,复杂的数据用复杂的模型

2. 训练数据集中的样本越少,我们就越有可能(且更严重地)过拟合。 随着训练数据量的增加,泛化误差通常会减小。 此外,一般来说,更多的数据不会有什么坏处。 对于固定的任务和数据分布,模型复杂性和数据集大小之间通常存在关系。 给出更多的数据,我们可能会尝试拟合一个更复杂的模型。 能够拟合更复杂的模型可能是有益的。 如果没有足够的数据,简单的模型可能更有用。 对于许多任务,深度学习只有在有数千个训练样本时才优于线性模型。

3.L1,L2,正则化

首先加入L1或L2正则化是对w的一个限制即J=L(w) s.t. f(w)。经过拉格朗日转为无约束问题,加在L后面从而有我们熟悉的形式。

  • L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择
  • L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合

而正则化前面的系数 α,可以控制 L 图形的大小。 α越小, L的图形越大(上图中的黑色方框); α 越大, L的图形就越小,可以小到黑色方框只超出原点范围一点点,这是最优点的值 (w1,w2)=(0,w)中的 w可以取到很小的值。

 其实L2正则化还有着熵最大的表现,

4.暂退法(dropout):一种无偏向(unbiased)(预期是E[x′]=x。x′是注入噪声后的数据)的方式注入噪声。

  • 暂退法可以避免过拟合,它通常与控制权重向量的维数和大小结合使用的。

  • 暂退法将活性值hh替换为具有期望值hh的随机变量。

  • 暂退法仅在训练期间使用。(暂退法是对数据加入了噪声,对于验证的时候我们并不需要对数据有任何噪声的加入)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值