正则化防止过拟合（L1、L2、Dropout）

最新推荐文章于 2025-03-23 18:15:53 发布

十里清风

最新推荐文章于 2025-03-23 18:15:53 发布

阅读量720

点赞数

分类专栏：深度学习文章标签：深度学习正则化

本文链接：https://blog.csdn.net/sinat_34072381/article/details/105836080

版权

深度学习专栏收录该内容

31 篇文章

订阅专栏

文章目录

为什么要正则化？
L2 Normalization
L1 Normalization
Dropout

参考文献
1.Overfit and underfit

为什么要正则化？

深度模型（参数多）擅长过度拟合训练数据，通过增加训练数据可有效防止过拟合，但一般无法得到大量有效的数据，一般通过对参数进行特殊处理防止过拟合。

我们没有magical formula衡量模型的大小是否合适，为找到合适的模型，有效的想法是先使用层数较少的模型，或使用较小值初始化参数，然后逐渐增加模型层数、调增参数的大小，通过模型在验证集上的表现，判断模型大小是否合适。

L2 Normalization

L2参数范数惩罚通常被称为权重衰减，正则化策略是在目标函数/损失函数中添加正则项： $\Omega(\theta)=||w||^2/2$ ，使权重更接近原点，使用L2正则化的总目标函数为
$\tilde J(w;X,y)=\frac{\alpha}{2}w^\top w+J(w;X,y)$
与之对应的梯度为
$\nabla_w\tilde J(w;X,y)=\alpha w+\nabla_wJ(w;X,y)$
使用单步梯度下降更新权重，执行以下更新：
$\to w-\epsilon(\alpha w+\nabla_wJ(w;X,y))=(1-\epsilon\alpha)w-\epsilon\nabla_wJ(w;X,y)$
在每次参数更新时，使用L2正则化比不使用多一步自身权重的缩放。 那么，最后整个训练过程到底发生了什么？正则化后最优权重 $\tilde w$ 和未正则化最优权重 $w^*$ 的主要差异是什么？

由于目标函数在最优权重处一阶导为零，即正则化后的最优权重满足
$\alpha\tilde w+\nabla_{\tilde w}J(\tilde w;X,y)=0$
对未正则化目标函数在其最优权重 $w^*$ 处二次泰勒近似，得
$J(w;X,y)\approx J(w^*;X,y)+(w-w^*)^\top g+\frac{1}{2}(w-w^*)^\top H(w-w^*)$

式中 $g$ 和 $H$ 分别表示未正则化目标函数 $J$ 在最优权重 $w^*$ 处的Jacobian和Hessian矩阵，且 $g = 0$ ，再对其求导得
$\nabla_wJ(w;X,y)=H(w-w^*)$
因此
$\alpha\tilde w+H(\tilde w-w^*)=0 \implies \tilde w=(H+\alpha I)^{-1}Hw^*$
实对称矩阵可正交分解 $H=Q\Lambda Q^\top$ ，因此
$\tilde w=Q(\Lambda +\alpha I)^{-1}\Lambda Q^\top w^*$

引理：实对称变换的意义

若矩阵 $A$ 为实对称矩阵，则可将其分解为 $A=Q\Lambda Q^\top$ ， $Q$ 的列向量 $v$ 是 $A$ 的特征向量， $\Lambda$ 对角线元素是特征值，由于 $Q$ 是正交矩阵，我们 可以将 $A$ 看做沿 $v^{(i)}$ 延展 $\lambda_i$ 倍的空间，如下图所示：

假设二维实对称矩阵 $A$ 的单位特征向量为 $v_1$ 和 $v_2$ ，对应特征值 $\lambda_1$ 和 $\lambda_2$ ，对任意 $x$ 进行变换
$Ax=\lambda_1v_1v_1^\top x+\lambda_2v_2v_2^\top x$

其中 $\lambda_iv_iv_i^\top x$ 的几何意义为， $x$ 在 $v_i$ 方向的投影伸缩 $\lambda_i$ 倍得到的向量。

这里，我们可以看到权重衰减的效果是沿着由 $H$ 的特征向量所定义的轴缩放 $w^*$ ，具体地说，将 $w^*$ 在 $H$ 第 $i$ 个特征向量方向上的分量缩放 $\lambda_i/(\lambda_i+\alpha)$ 倍。因此，沿着 $H$ 特征值 $\lambda_i\gg \alpha$ 的方向正则化的影响较小，特征值 $\lambda_i\ll \alpha$ 的分量将会收缩至零，如下图：

上图中,Hessian水平方向较扁，对应特征值较小，目标函数在这个方向移动函数值变化较小，因此极值点 $w_1$ 较小。

L1 Normalization

L1正则策略是在目标函数中添加参数的绝对值之和，添加L1正则项的目标/损失函数为
$\tilde J(w;X,y)=\alpha||w||_1+J(w;X,y)$

对应梯度为
$\nabla_w\tilde J(w;X,y)=\alpha\text{sign}(w)+\nabla_wJ(w;X,y)$

相比不使用正则化的目标函数，使用L1正则化在使用梯度下降更新时， $w$ 会加上或减去 $\alpha\eta$ ，使 $w$ 向 $0$ 靠拢。

从L2正则项章节中已知，未正则化目标函数的导数为
$\nabla_wJ(w;X,y)=H(w-w^*)$

使用L1正则项的损失函数没有清晰的代数表达式，我们假设其Hessian矩阵是对角矩阵，即输入特征间无相关性，则可将L1正则化目标函数二阶近似分解为关于参数求和的形式：
$\tilde J(w;X,y)=J(w^*;X,y)+\sum_i\left[\frac{1}{2}H_{i,i}(w_i-w_i^*)^2+\alpha|w_i|\right]$

上式中一阶项在 $w^*$ 处为0，已忽略，最小化这个近似代价函数，可得到解析解：
$w_i=\text{sign}(w_i^*)\max\left\{|w_i^*|-\frac{\alpha}{H_{i,i}},0\right\}$

由此可见，L1正则化得到的权重更稀疏，最优权重存在一些参数为0。由L1正则化导出的稀疏性质已被广泛地用于特征选择机制，选择有意义的特征，化简机器学习问题。

Dropout

Dropout可以被认为是 集成大量深层网络的Bagging方法，提供了一种廉价的Bagging集成近似，能够训练和评估指数级数量的神经网络。

具体而言，Dropout训练的集成包括所有从基础网络除去非输出单元后形成的子网络，假如网络中除去输出节点外的包含n个节点，则子网络的可能数量为 $\sum_{i=0}^nC_n^i=2^n$ ，如图所示：

Bagging学习是定义k个不同模型（参数独立），并使用k个独立同分布的训练集分别训练这k个模型，最终集成k个不同模型，而Dropout学习思想类似于Bagging，即使用不同的mini-batch数据集训练不同的子网络，再集成这个子网络（参数共享）。使用Dropout学习，一般父网络单元数较多时，大多数子网络得不到训练，但是不同子网络间参数共享，会使得未训练的子网络也能具有较好的参数。

使用Bagging学习时，每个模型产生一个概率分布，集成预测是由这些分布的算术平均值给出：
$\frac{1}{k}\sum_{i=1}^kp^{(i)}(y|x)$

使用Dropout学习时，通过掩码 $u$ 定义每个子模型的概率分布 $p (y ∣ x, u)$ ，所有掩码的算术平均值为：
$\sum_up(u)p(y|x,u)$

式中， $p (u)$ 是训练时采样 $u$ 的概率分布。

掩码算术平均涉及多达指数级的项求和，一般使用集成成员预测分布的几何平均分布取而代之：
$p_{ensemble}(y|x)=\frac{\tilde p_{ensemble}(y|x)}{\sum_y'\tilde p_{ensemble}(y'|x)},\quad \tilde p_{ensemble}(y|x)=\sqrt[2^d]{\prod_up(y|x,u)}$

式中， $d$ 是被丢弃的单元数。

一般通过评估模型的 $p (y ∣ x)$ 来近似 $p_{ensemble}(y|x)：$ 使用 权重比例推断原则 得到近似集成模型期望化单元输出，如在训练结束后将各单元的输出权重乘以其在训练时对应的droprate（缩小输出），或在训练时将各单元输出除以droprate（放大输出），两种达到的效果大致相同，权重比例推断虽未在深度非线性网络上进行理论论证，但经验上表现很好。