花书笔记：第07章深度学习中的正则化_经典正则化目标函数j(m) = jd(m) + αjm(m)-CSDN博客

本文链接：https://blog.csdn.net/qq_38837314/article/details/120519770

花书笔记：第07章深度学习中的正则化

7.1 参数范数惩罚

参数范数惩罚 $\Omega(\theta)$

在这里插入图片描述

$\alpha \in [0,\infty)$ 是衡量惩罚项 $\Omega$ 和目标函数 $J$ 相对贡献的超参数， $\alpha$ 越大，对应正则化惩罚越大。
训练正则化后的目标函数 $\tilde J$ 会同时减小训练集的误差 和在某些衡量标准下参数 $\pmb \theta$ (或参数子集) 的规模。
神经网络中的参数包括权重 $\pmb w$ 和偏置 $\pmb b$ ，但通常只对 $\pmb w$ 做惩罚，正则化 $\pmb b$ 可能会导致明显的欠拟合。

7.1.1 $\pmb{L^2}$ 参数正则化(权重衰减)

目标函数

正则项 $\Omega(\pmb \theta)=\frac{1}{2}||\pmb w||_2^2$ ， $\alpha > 0$ 为惩罚系数。
参数更新
图像理解
1. 蓝色等高线代表标准目标函数 $J$ ，越靠近中心，越接近最优值，中心蓝点为最优值。
2. 橙色等高线代表惩罚项 $\Omega(\pmb \theta)=\frac{1}{2}||\pmb w||_2^2$ ，越靠近原点 $w$ 越小。
3. 目标函数 $\tilde J$ 同时优化 $J$ 和 $\Omega(\theta)$ 两项，在梯度下降时 $w$ 会向，既能使 $J$ 接近最优值，也能使 $\Omega(\theta)$ 接近最优值的方向移动。最终到达平衡点 $w^*$ ，该处为目标函数 $\tilde J$ 的最优解。
权重衰减性质
1. 该策略使原始目标函数 $J$ 和权重 $w$ 同时进行梯度下降。具有以下几个特点：
  ① $w$ 更小，很多会接近 0 ，所以模型更简单，可以在一定程度上防止过拟合。
  ② 正则化目标函数优化项更多，缩小了解空间，可以在一定程度上防止过拟合。
  ③ 从上图表示的梯度下降过程可看出， $L^2$ 正则化得到的 $w^*$ 更接近原点。
2. $\alpha$ 越小惩罚力度越小，越大惩罚力度越大。
3. 惩罚项对于较大的 $w$ 惩罚力度更大，对于很小的 $w$ 惩罚几乎不起作用。

7.1.2 $L^1$ 正则化

目标函数

正则项 $\Omega(\pmb \theta)=||\pmb w||_1$ 。
参数更新
$\pmb w \leftarrow \pmb w - \epsilon(\alpha· sign(\pmb w) + \triangledown_wJ(\pmb w;\pmb X;\pmb y))$
若 $w > 0$ ，则 $s i g n (w) = 1$ ；若 $w < 0$ ，则 $s i g n (w) = - 1$ ；若 $w = 0$ ，则 $s i g n (w) = 0$ ；
图像理解

$L^1$ 正则化的等高线是矩形。所以 $\Omega(\theta)$ 与 $J$ 的平衡点 $\pmb w^*$ ( $\tilde J$ 的最优值) 一般在坐标轴上，即 $\pmb w^*$ 会有会有很多分量为 0 。
L1 性质
- $L^1$ 的得到的 $w^*$ 也会比较小。
- $L^1$ 会比 $L^2$ 产生更稀疏的解，即 0 更多。
- 足够大的 $\alpha$ 可以使更多 $w^*$ 分量为 0 ，从而实现稀疏。
- 由于 $L^1$ 的稀疏性，可以用其实现特征选择，得到一个稀疏的模型。即为 0 的分量对应的特征不太重要，只有非零 $w^*$ 分量对应的特征才能起到作用。由此可看出 $L^1$ 使特征选择和模型训练两个过程融为一体。

7.2 作为约束的范数惩罚

添加约束的范数惩罚

如果我们想要约束 $\Omega(\theta)$ 小于某个常数 k，则可以构建一个 Lagrange 函数：

该优化问题的解由下式给出：

根据强对偶性：
$\pmb\theta^* = arg \max_{\alpha,\alpha ≥0} \min_{\theta}L(\pmb\theta,\alpha)$
固定 $\alpha^*$ 求 $\min_{\pmb \theta}L(\pmb \theta,\alpha^*)$ ：

将上式解带入 $L(\pmb\theta,\alpha)$ 中得到关于 $\alpha$ 的表达式，然后求 $\max_{\alpha}L(\alpha)$ 。
相关性质
- 与参数范数惩罚相同， $\alpha$ 越大惩罚力度越大，所有的正值 $\alpha$ 都将鼓励 $\Omega(\theta)$ 项收缩(减小)。
- 式7.28中 $\alpha^*$ 是固定值，所以该式此时属于参数范数惩罚， $\alpha$ 越大约束区域 k 越小， $\alpha$ 越小约束区域 k 越大。我们无法直接知道 k 的大小，k 此时与 $J$ 的形式有关。所以参数范数惩罚看作对权重强加的约束。属于隐性限制。
显式约束及重投影

该方法思想是，使其先计算 $J(\pmb \theta)$ 的下降步 (即 $\epsilon \triangledown J(\pmb\theta)$ )，然后将 $\pmb\theta$ 投影到满足 $\Omega(\theta)<k$ 的最近点，k 已知。（本人对这句话的理解是对标准目标函数 $J$ 进行梯度下降，直至 $\Omega(\theta)$ 变大试图离开限制区域 k 时为止）。
显式约束及重投影优点
- 该方法对于最优 k 已知，不想去再求 $\alpha$ 的情况非常有用。
- 惩罚可能会导致目标函数非凸，从而陷入局部极小值。而显式约束不鼓励 $\pmb\theta$ 接近原点，只在权重变大试图离开限制区域时产生作用，所以该方法对优化过程增加了一定的稳定性。
- 由于显示约束及重投影在权重变大试图离开限制区域时产生作用，所以避免了上溢出问题。
显式约束及重投影的应用

7.3 正则化和欠约束问题

欠定问题1
1. 【问题】
  
  对于依赖对矩阵 $\pmb X^T\pmb X$ 求逆的算法，如线性回归和PCA，只要 $\pmb X^T\pmb X$ 是奇异的，这些方法就会失效。
2. 【解决方法】
  
  可以使用正则化 $\pmb X^T\pmb X+\alpha \pmb I$ 代替(等价于 $L^2$ 也叫权重衰减)，该式是保证可逆的。
欠定问题2
1. 【问题】
  
  没有闭式解的问题也可能是欠定的，例如逻辑回归权重 $w$ 可以完美分类，那么 $2 w$ 也会以更高似然实现完美分类，随机梯度下降迭代优化将持续增加 $w$ 。
2. 【解决方法】
  
  大多数的正则化都能保证欠定问题收敛，例如正则化 $\pmb X^T\pmb X+\alpha \pmb I$ ，当似然的斜率等于权重衰减系数时，权重衰减将阻止梯度下降继续增加权重大小，即标准目标函数 $J$ 与正则化项 $\Omega(\theta)$ 达到平衡。
数学应用

Moore-Penrose伪逆 $X^+$ 定义：

该式可看作进行具有权重衰减的线性回归，因此可以将伪逆解释为使用正则化来稳定欠定问题。

7.4 数据集增强

机器学习模型泛化最好的办法是使用充足的数据进行训练。而实际情况下，数据集总是有限的，我们可以通过使用某种方法创建假数据集并添加到训练集中。

数据增强对对象识别任务具有很好的效果，通常使用平移、旋转、缩放、镜像、裁剪等方法对图像进行数据增强。
数据增强对语音识别任务也是有效的，通常由的增强方法有：
1. 简单的将一些随机噪声添加到输入中再进行训练。
2. 在隐藏单元施加噪声，该方法可以看作在多个抽象层进行数据增强。

7.5 噪声鲁棒性

一般情况添加噪声远比简单的正则化收缩参数强大，尤其是添加到隐藏层更加强大。Dropout 是目前向隐层单元添加噪声的主要研究方向。
另一种正则化模型的噪声使用方式是将噪声加到权重，这项技术主要用于循环神经网络。
在MLP用于回归任务中，使用MSE作为误差函数，并向权重增加噪声 (噪声方差为 $\eta \pmb I$ )，相当于向 $J$ 中加入了正则化项 $\eta \mathbb{E}_{p(x,y)}[||\triangledown _{W}\hat y(\pmb x)||^2]$ 。它推动模型进入对权重小的变化相对不敏感的区域，且找到的最优点是由平坦区域所包围的极小点。

7.5.1 向输出目标注入噪声

问题

大多数数据集的 $y$ 标签都有一定错误。这些错误的 $y$ 不利于最大坏似然。
解决方法：标签平滑

假设一些小常数 $\epsilon$ ，将分类目标 0 和 1 替换成 $\frac{\epsilon}{k-1}$ 和 $1-\epsilon$ ，来正则化具有 k 个输出的 softmax 函数模型。 $\epsilon$ 表示 y 标签可能的错误率。
作用

因为 softmax 永远无法预测 0 或 1 的概率使其收敛，所以它会继续学习使权重越来越大，通常我们可以使用权重衰减等正则化方法来防止这种情况。但使用标签平滑的优势是，它将确切目标替换成非确切的目标输出，能够防止模型追求确切概率而不影响模型学习正确分类。

7.6 半监督学习

在半监督学习的框架下， $P(\pmb x)$ 产生的未标记样本和 $P(\pmb x ,\pmb y)$ 中的标记样本都用于估计 $P(\pmb y|\pmb x)$ 或者根据 $\pmb x$ 预测 $\pmb y$ 。即既使用有标签的数据训练模型，也使用无标签的数据训练模型。

半监督学习的目的

在深度学习背景下，半监督学习通常是指学习一个表示 $\pmb h = f(\pmb x)$ 。学习表示的目的是使相同类中的样本具有类似表示。即相同样本他们的表示之间的距离应该更近。
半监督学习之无监督和有监督分离

在半监督学习中无监督和监督部分可以分开进行，即先用无监督模型 $P (x)$ 将样本映射到类似的表示，然后使用有监督训练模型 $P(\pmb y|\pmb x)$ 。
半监督学习之权衡无监督和有监督
- 我们可以构建一个模型，该模型中无监督生成模型 $P(\pmb x)$ 或 $P(\pmb x,\pmb y)$ 和有监督判别模型 $P(\pmb y|\pmb x)$ 共享参数。只是同时权衡(优化)监督模型准则 $-logP(\pmb y|\pmb x)$ 和无监督或生成模型准则 (如 $-logP(\pmb x)$ 或 $-logP(\pmb x,\pmb y)$ )。
通过控制总准则中的生成准则，我们可以获得比纯生成或纯判别训练准则更好的权衡。

7.7 多任务学习

多任务学习是通过合并几个任务中的样例(可以视为对参数施加的软约束)来提高泛化的一种方式。

模型结构
1. 上图就是多任务学习网络的整体结构，不同任务(给定 $\pmb x$ 预测 $\pmb y^{(i)}$ )，共享相同的输入 $\pmb x$ ，以及一些中间隐层 $\pmb h^{(shared)}$ ，该层一般用于学习公共特征，用于不同任务。
2. $\pmb h^{(3)}$ 表示无监督学习任务的输出，与预测 $\pmb y^{(i)}$ 不相关。
优势
1. 因为任务合并以及参数共享，模型统计强度大大增加(因为训练样本多了)，并能改善泛化和泛化误差范围。(仅当共享合理时才会发生)。
2. 共享层 $\pmb h^{(shared)}$ 被约束为良好的值，即提取的公共特征泛化更强。

7.8 提前终止

过拟合

在网络训练过程中通常会出现训练误差随着时间不断下降，而验证集的误差会再次上升，这就是过拟合现象。
提前终止策略

思想：我们想要获得验证集更低的模型，因为它在一定程度上代表了泛化误差，所以每当验证集误差下降是，我们都会保存最佳的模型参数，直至指定的循环次数内，验证误差没有再一次下降，算法就会终止。此时保存下来的验证集误差最低的模型就是我们得到的性能最优的模型。
对于提前终止的建议
1. 训练期间要定期评估验证集误差，我们可以在不影响主训练的同时，在另外的机器或CPU和GPU上评估。
2. 如果没有额外的机器可以使用较小的验证集进行评估，来减少评估代价。
3. 保存最佳参数时可以保存在本地
如何更好的利用数据集

由于提前终止需要用到验证集，所以提前终止得到的模型不能完全利用数据集，即模型没有学习验证集中的数据。所以，为了更好的利用数据集，在提前终止后还需要进行第二轮的额外训练。第二轮通常有两种策略如下。
策略一

存在隐患：
1. 由于两轮 $\theta$ 都为随机值，所以两轮网络训练的起点将会不同，可能导致不能得到最优泛化。使用随机种子，使两次 $\theta$ 相同，可缓解该问题。
2. 由于第二轮训练集与第一轮训练集不同，我们无法知道训练相同的 epochs 和更新相同次数的参数哪个更好。
策略二

另一个策略是保持从第一轮训练获得的参数，然后使用全部的数据继续训练。在这个阶段，已经没有验证集指导我们需要在训练多少步后终止。取而代之，我们可以监控验证集的平均损失函数，并继续训练，直到它低于提前终止过程终止时的目标值。

存在隐患：

第二轮训练时，验证集损失并不一定能够达到第一轮结束后获得的目标值，所以这种策略甚至不能终止。
提前终止为何具有正则化效果
1. 提前终止可以将优化过程中的参数空间限制在初始参数值 $\pmb\theta^0$ 的小邻域内，也能起到防止 $\pmb w$ 过大的作用。
2. 通过花书证明，提前终止中的学习率 $\epsilon$ 和训练迭代次数 $\tau$ 的乘积与 $L^2$ 正则化中的 $\alpha$ 成反比。即 $\alpha≈\frac{1}{\alpha\tau}$ 。
3. 通过花书推导，长度为 $\tau$ 的轨迹结束于 $L^2$ 正则化目标的极小点。
提前终止算法的优势

提前终止通常涉及监控验证集误差，以便在空间特别好的点处终止轨迹。它比权重衰减更具有优势，因为提前终止能自动确定正则化的正确量，而权重衰减需要进行多个不同超参数值的训练实验。

7.9 参数绑定和参数共享

参数绑定： 对于两个模型 $\pmb w^{(A)}$ 和 $\pmb w^{(B)}$ 执行足够相似的任务，但输入分布稍有不同，我们可以认为对任意 $w_i^{(A)}$ 和 $w_i^{(B)}$ 应该足够接近。可以使用如下惩罚： $\Omega(\pmb w^{(A)},\pmb w^{(B)})=||\pmb w^{(A)}-\pmb w^{(B)}||_2^2$ 。除了使用正则化，我们也可以使用另一种方法：强迫某些参数相等。
参数共享： 将各种模型或模型组件共享唯一的组参数，该方法可以显著减少模型使用的内存。

7.9.1 卷积神经网络中的参数共享

背景

自然图像具有许多统计属性是转换不变的，如猫的照片，不管猫在图像中那个位置，它都是猫的照片。
如何共享

CNN 使用卷积核进行卷积操作来共享参数，相同的特征在不同的位置计算获得，这样不管猫在哪个位置，最终求得的特征也会比较接近。
作用

CNN 的参数共享显著的降低了参数数量，并且显著提高了网络的大小而不需要相应的增加训练数据。

7.10 稀疏表示

正则化除了可以惩罚参数。另一种策略是惩罚神经网络中的激活单元。稀疏化激活单元。这种策略间接的对模型参数施加了复杂惩罚。

稀疏惩罚

稀疏惩罚分形式与诱导参数稀疏的惩罚(如 $L^1$ ) 形式比较相似。不同的是参数稀疏惩罚对 $\pmb w$ 惩罚，希望 $\pmb w$ 中有更多的 0 ；而稀疏惩罚对各层激活神经元输出 $\pmb h$ 进行惩罚，希望 $\pmb h$ 中有更多的 0 ，所以这个惩罚其实在隐式的惩罚 $w^{i}$ 使其在与上一层输出 $h^{i-1}$ 计算时输出的 $h^{i}$ 是稀疏的。
目标函数

稀疏惩罚的目标函数与参数惩罚相同，如下：

7.11 Bagging 和其他集成方法

Bagging

Bagging 属于并行的集成方法，它的主要思想是，分别训练几个不同的模型，然后让所有模型表决(投票)测试样例输出，这种方法也叫模型平均。
同种模型使用Bagging
- 自助法 从具有 m 个数据的数据集中，有放回的抽样 m 次，获得与原始数据集相同规模的新数据集(约有36.8%的数据样本不会被抽中)，重复 k 次就会获得 k 个不同的数据集。
- 使用自助法生成的数据即便用同种模型训练也会产生差异，继而可以使用 Bagging 提高准确率。下图就是同种模型使用 Bagging 的过程。
Boosting

Boosting 属于串行的集成技术，通过不断地叠加新模型来提高准确率。
Bagging和Dropout

Dropout 的思想来源于 Bagging 。它们的主要区别是：Bagging 中所有模型都是独立的；而 Dropout 采用的是原网络的子集，每次采样得到的子模型共享参数。

7.12 Dropout

Dropout主要思想

Dropout 的工作原理是，对原始神经网络除输出层以外，其他每层按照设置的比例(0~1) 对神经元进行随机采样。然后使用采样得到的子网络训练一个 batch。然后重复此操作直至训练结束。

上图中左边为原始网络，右边为该网络进行 Dropout 采样所有可能采样得到的子网络，在图中我们可以看到有些 Dropout 的结果已经不能称之为网络了，所以为了保证 Dropout 不发生错误，我们常使用以下策略：
1. 输入层通常不做 Dropout 采样。
2. 若隐层某层较宽(神经元较多)，采样的概率可以设置小些；若隐层较窄，采样概率可以设置大些。因为更多的神经元意味着更容易过拟合，所以我们要设置小一点的采样概率，使失效的神经元更多。
Dropout实现

为了简单，通常使用乘以 0 的方法实现 Dropout。它的主要原理如下：
1. 为每层神经元设置一个二值掩码向量 $\pmb\mu$ ，维度与该层神经元个数相同。向量中每个元素对应一个神经元，0 代表该神经元失效，1 代表该神经元正常。
2. 为每层设置采样概率 $p$ ，每个 batch 按照采样概率对每一层生成二值向量 $\pmb\mu$ (向量中有 $p$ 的比例为 0 ，其余为 1) 。
3. 在网络正向传播时，每层神经元计算前，使用上一层的输出，乘以 $\pmb\mu$ 就可实现 Dropout 使部分神经元失效的效果。
权重比例推断规则

若一个神经元的输出是 $h_i$ ，那么原始网络此时只要输入不变，那么输出永远是 $h_i$ ，所以该神经元的输出期望为 $h_i$ 。若使用 Dropout 那么该神经元有 $p$ 的概率会失效，此时神经元输出为 0 ；有 $(1 - p)$ 的概率会保持正常，输出为 $h_i$ ；此时该神经元的期望为 $\times 0)+((1-p) \times h_i)=\pmb{(1-p)h_i}$ 。

由于 Dropout 期望与原网络期望不同，因此需要进行缩放使二者期望相同，常用的缩放方法有两种：

1）缩放输出

对使用 Dropout 的神经网络，每层的神经元输出后乘以 $\frac{1}{(1-p)}$ ，其中 $p$ 为该层神经元设置的采样概率。这样的目的是使使用 Dropout 的网络与原网络期望相同都为 $h_i$ 。网络训练完成后，使用完整的网络(失效神经元)进行测试或推理时不需要再乘以 $\frac{1}{(1-p)}$ 。

2）缩放权重

训练时不对 Dropout 过程进行处理，在测试或推理时，将完整网络所有的神经元的权重 $\pmb W$ 乘以每层神经元被包含的概率(不失效的概率) $\pmb{1-p}$ 。
Dropout图解示例

原始网络：

Dropout 计算过程：
Dropout的优点
1. Dropout 比其他标准的计算开销小的正则化方法（如权重衰减和稀疏激活的正则化）更有效。
2. Dropout 也可以与其他形式的正则化合并，得到进一步的提升。
3. 计算方便，每次更新的复杂度为 O(n)。
4. 不限制适用的模型或训练过程 (显著优点)。
Dorpout的缺点
1. 使用 Dorpout 的最佳验证误差会低很多，但会需要更多的训练次数。
2. 只有极少的训练样本可用时， Dropout不会很有效。

7.13 对抗训练

为什么需要对抗训练

以图像分类为例，在一个图像中加入一些噪声进行微小的扰动，对于人来说仍能正确分类，但网络模型很有可能分类错误。因此需要对抗训练来提高模型的鲁棒性。
对抗训练的思想

对抗训练通过鼓励网络在训练数据附近的局部区域恒定来限制这一高度敏感的局部线性行为。常用的就是在原始图像中加入造成生成对抗样本进行训练来提高鲁棒性。
FGSM方法
$\pmb{\hat x}=\pmb{x}+\epsilon sign(\triangledown_x\pmb J(\pmb\theta,\pmb x,y))$
FGSM方法的原理是在梯度上升的方向(正梯度方向)，对数据进行扰动，来生成对抗样本