人工智能/机器学习基础知识——正则化

最新推荐文章于 2024-07-12 23:11:20 发布

ZreviaX

最新推荐文章于 2024-07-12 23:11:20 发布

阅读量704

点赞数 20

分类专栏：人工智能/机器学习基础知识文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/WindGrin_/article/details/137617189

版权

31 篇文章 0 订阅

订阅专栏

正则化（Regularization）

防止过拟合

L1正则化

L2正则化

假设当前有参数： $θ_0，θ_1，θ_2，...，θ_n$ ，则正则化项可表示为： $λ\sum\limits_{j=0}^{n}θ_j^2$
核心思想是通过增加正则化项来缩小参数值进而减少过拟合。比如添加正则化项 $100θ_0^2$ ，那么在梯度下降算法中更新 $θ_0$ 参数时，根据公式： $θ_i = θ_i - α\frac{∂L(θ_1,θ_2,θ_3,...,θ_n)}{∂θ_i}$ 那么 $θ_0$ 的值就会比没有正则化时小了 $200θ_0$ ，这样就通过添加一个λ系数较大的正则化项来达到减少参数值的目的，从而避免过拟合
对于参数值缩小这点可以理解为：较好的拟合函数假设为 $θ_2x^2+θ_1x+θ_0$ 另一个过拟合的函数假设为 $θ_4x^4+θ_3x^3+θ_2x^2+θ_1x+θ_0$ 当对过拟合函数增加如下正则化项 $100θ_3^2+100θ_4^2$ 那么在梯度下降的不断迭代更新参数过程中， $θ_3$ 和 $θ_4$ 就会变得非常小，小到可以忽略不计。那么这时候就可以近似的把过拟合函数当成是较好的拟合函数，因为 $θ_4x^4+θ_3x^3$ 已经小到可以忽略不计。这就是正则化项为什么能避免过拟合的原因

弹性网络正则化

权重衰减

在更新时引入衰减系数

$\theta_{t} \leftarrow(1-\beta) \theta_{t-1}-\alpha g_{t}$
$g_t$ 为第 $t$ 步更新时的梯度， $\alpha$ 为学习率， $\beta$ 为权重衰减系数
在标准的梯度下降中，权重衰减与L2正则化等价，但在较复杂的优化方法（如Adam）中，两者并不等价

早停

Dropout

掩蔽函数

$\operatorname{mask}(x)= \begin{cases}m \odot x & \text { Training } \\ p x & \text { Testing }\end{cases}$
$\boldsymbol{m} \in\{0,1\}^{D}$ 为丢弃掩码（Dropout Mask），通过以概率为 $p$ 的伯努利分布随机生成
- 在测试时，所有的神经元都是可以激活的，这会造成训练和测试时网络的输出不一致．为了缓解这个问题，在测试时需要将神经层的输入 $x$ 乘以 $p$ ，也相当于把不同的神经网络做了平均
针对RNN的Dropout
- 不能直接对每个时刻的隐状态进行随机丢弃，会损害RNN的记忆能力
- 针对非循环连接进行丢弃（虚线表示丢弃，不同颜色表示不同丢弃掩码）
- 变分丢弃法（Variational Dropout）（相同颜色表示使用相同的丢弃掩码）