权重衰减

最新推荐文章于 2025-07-08 21:11:25 发布

转载最新推荐文章于 2025-07-08 21:11:25 发布 · 254 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://tangshusen.me/Dive-into-DL-PyTorch/#/chapter03_DL-basics/3.12_weight-decay

文章标签：

#深度学习

深度学习专栏收录该内容

3 篇文章

订阅专栏

本文探讨了过拟合现象及如何通过权重衰减（等价于L2正则化）来应对。权重衰减通过在损失函数中添加惩罚项，使模型参数值较小，有效防止过拟合，特别适用于线性回归等模型。

权重衰减

上一节中我们观察了过拟合现象，即模型的训练误差远小于它在测试集上的误差。虽然增大训练数据集可能会减轻过拟合，但是获取额外的训练数据往往代价高昂。本节介绍应对过拟合问题的常用方法：权重衰减（weight decay）。

方法

权重衰减等价于 $L_2$ 范数正则化（regularization）。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小，是应对过拟合的常用手段。我们先描述 $L_2$ 范数正则化，再解释它为何又称权重衰减。

$L_2$ 范数正则化在模型原损失函数基础上添加 $L_2$ 数惩罚项，从而得到训练所需要最小化的函数。 $L_2$ 范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。以线性回归损失函数

$ℓ(w1,w2,b)=1n∑i=1n12(x1(i)w1+x2(i)w2+b−y(i))2\ell(w_1, w_2, b) = \frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right)^2$

为例,其中 $w_1$ , $w_2$ 是权重参数, $b$ 是偏差参数,样本 $i$ 的输入为 $x_1^{(i)}$ , $x_2^{(i)}$ ,标签为 $y^{(i)}$ ,样本数为 $n$ .将权重参数用向量 $w=[w1,w2]\boldsymbol{w} = [w_1, w_2]$ ,带有 $L_2$ 范数相的新损失函数为

$ℓ(w1,w2,b)+λ2n∥w∥2,\ell(w_1, w_2, b) + \frac{\lambda}{2n} \|\boldsymbol{w}\|^2,$

其中超参数 $λ > 0$ 。当权重参数均为0时，惩罚项最小。当λλ较大时，惩罚项在损失函数中的比重较大，这通常会使学到的权重参数的元素较接近0。当λλ设为0时，惩罚项完全不起作用。上式中 $L_2$ 范数平方 $w∥^2$ 展开后得到 $w12+w22w^2_1+w_2^2$ 。有了 $L_2$ 范数惩罚项后，在小批量随机梯度下降中，我们将线性回归一节中权重 $w_1$ 和 $w_2$ 的迭代方式更改为

$w1←(1−ηλ∣B∣)w1−η∣B∣∑i∈Bx1(i)(x1(i)w1+x2(i)w2+b−y(i)),w2←(1−ηλ∣B∣)w2−η∣B∣∑i∈Bx2(i)(x1(i)w1+x2(i)w2+b−y(i)).\begin{aligned}w_1 &\leftarrow \left(1- \frac{\eta\lambda}{|\mathcal{B}|} \right)w_1 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}}x_1^{(i)} \left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right),\\w_2 &\leftarrow \left(1- \frac{\eta\lambda}{|\mathcal{B}|} \right)w_2 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}}x_2^{(i)} \left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right).\end{aligned}$