归一化与正则化

qq_26697045

已于 2022-12-31 00:55:08 修改

阅读量1.5k

点赞数 1

分类专栏：深度学习文章标签：深度学习

于 2020-01-12 18:56:49 首次发布

本文链接：https://blog.csdn.net/qq_26697045/article/details/103948125

版权

深度学习专栏收录该内容

34 篇文章 0 订阅

订阅专栏

欢迎访问我的博客首页。

归一化与正则化

1. 权重归一化
2. 特征归一化
3. 损失函数正则化
4. 参考

机器学习的学习过程基于概率和统计学，学习到的知识能用于其它数据的一个基本假设是独立同分布(IID)，因此把数据变成同分布是很有必要的。本文介绍深度学习中的归一化(normalization)和正则化(regularization)。

1. 权重归一化

1. 作用

不归一化特征，而是归一化权重。假设卷积核的向量形式是 $\vec w$ ，感受野的向量形式是 $\vec x$ ，偏置为 $b$ 。一个神经元的输出可以表示为：

$\phi (\vec w \cdot \vec x + b).$

把 $\vec w$ 写成 $\vec w = \frac{g}{||\vec v||} \cdot v$ 。因为 $\frac{\vec w}{g} = \vec e$ ，所以 $||\vec w|| = g$ 。这样，权值向量 $\vec w$ 的模长就是 $g$ ，方向就是 $\frac{\vec v}{|| \vec v ||}$ 。模长和方向不再耦合，利于加速收敛。

2. 梯度

训练的过程中要更新 $g$ 和 $\vec v$ ，所以要计算损失函数对它们的导数。
损失函数关于 $g$ 的导数：

$\nabla_{g} L = \nabla_{w} L \cdot \frac{\nabla_{w}L \cdot \vec v}{||\vec v||}.$

损失函数关于 $\vec v$ 的导数：

$\begin{aligned} \nabla_{v}L &= \nabla_{w} L \cdot \frac{\partial w}{\partial \vec v} \\ &= \nabla_{w} L \cdot g \cdot (\frac{\vec v' ||\vec v|| - \vec v||\vec v||'}{||\vec v||^2}) \\ &= \nabla_{w} L \cdot g(\frac{1}{||\vec v||} - \frac{\vec v}{||\vec v||^2} \cdot \frac{\vec v}{||\vec v||}) \\ &= \nabla_{w} L \cdot g \cdot \frac{1}{||\vec v||} - \nabla_{w} L \cdot g \cdot \frac{\vec v}{||\vec v||} \cdot \frac{\vec v}{||\vec v||^2} \\ &= \frac{g}{||\vec v||} \cdot \nabla_{w} L - \frac{g \cdot \nabla_{g}L}{||\vec v||^2} \cdot \vec v \end{aligned}$

2. 特征归一化

特征归一化方法有 BN、LN、IN、GN、SN。

1. 归一化方法

求输入数据 $input\_data$ 的均值 $\mu$ 、方差 $\sigma$ ：

$\begin{cases} \mu_i = \frac{1}{m} \sum_{k \in S_i} x_k,\\ \sigma_i = \sqrt { \frac{1}{m} \sum_{k \in S_i} (x_k - \mu _i)^2 + \epsilon}. \end{cases}$

其中 $\epsilon$ 是一个值较小的常量， $S_{i}$ 是用于计算均值和标准差的像素集合， $m$ 是集合的大小。

把input_data通过线性变换 $\frac{input\_data - \mu }{\sigma }$ 化为均值为0、方差为1的标准正态分布：

$\hat x_{i} = \frac{1}{\sigma_i} (x_i - \mu_i).$

使用可学习的参数 $\gamma$ 和 $\beta$ ，把 $input\_data$ 化为均值为 $\beta$ 、方差为 $\gamma^2$ 的正态分布：

$y_{i}=\gamma \hat{x}_{i}+\beta.$

均值和方差分别是：

$\begin{cases} E( y_{i}) = \gamma E(\hat{x}_{i}) +\beta = \beta,\\ D\left ( y_{i} \right ) = \gamma ^{2}D\left ( \hat{x}_{i} \right ) = \gamma ^{2}. \end{cases}$

所以归一化后的特征 $\sim N\left ( \beta ,\gamma ^{2} \right ).$

2. 归一化方法对比

四种特征归一化方法的区别在于 $S_{i}$ 不同，下图中蓝色的特征 $S_{i}$ 被归一化为相同的均值和方差。输入的特征维度是4维 $(N, C, H, W)$ 的，下图中 $H$ 和 $W$ 用一维表示。

四种归一化

BN中 $S_{i}=\left \{ k\mid k_{C}=i_{C} \right \}$ ：C坐标相同的像素在一块归一化。
LN中 $S_{i} = \left \{ k \mid k_{N}=i_{N} \right \}$ ：N坐标相同的像素在一块归一化。
IN中 $S_{i}=\left \{ k\mid k_{N}=i_{N},k_{C}=i_{C} \right \}$ ：N坐标和C坐标都相同的像素在一块归一化。
GN中 $S_{i} = \left \{ k\mid k_{N}=i_{N},\left \lfloor \frac{k_{C}}{C/G} \right \rfloor = \left \lfloor \frac{i_{C}}{C/G} \right \rfloor\right \}$ ：N坐标相同的像素分为G组，组内的像素在一块归一化。

组数G是一个预定义的超参数。 $\frac{C}{G}$ 是每组的通道数。 $\left \lfloor \cdot \right \rfloor$ 代表向下取整。最右的图中 $C = 6$ ， $G = 2$ ， $k_{C}$ 在 $\left \{ 0,1,2,3,4,5 \right \}$ 中取值时 $\left \lfloor \frac{k_{C}}{C/G} \right \rfloor$ 的值为 $\left \{ 0,0,0,1,1,1 \right \}$ ， $i_{C}$ 同理，因此把 $N$ 坐标相同的像素分为 $2 (G)$ 组，每组的通道数是 $3 (C / G)$ 。

3. BN 优点

加快网络训练。BN使每层的数据具有相同的分布，这有利于网络更快地收敛。
抑制梯度消失与爆炸。BN 把隐藏层的输出控制在合理范围。一方面使激活函数的输入不至于过大引起激活函数饱和，从而抑制梯度消失。另一方面使激活函数的导数不至于过大，引起梯度爆炸。
抑制过拟合：BN 把一批样本关联在一起，使网络不会根据某个样本生成结果。

4. BN 缺点

Batch size要足够大才能保证均值和方差与整体样本接近。
不能用于 RNN，RNN 使用 LN。

3. 损失函数正则化

损失函数正则化的目的是使参数矩阵稀疏化。

1. L0 正则化

定义：非 0 元素的个数。L0 范数使参数矩阵 W 的元素尽可能是 0。

2. L1 正则化

定义：各个元素的绝对值之和。
作用：L1 范数假设参数服从双指数分布(拉普拉斯分布)，利于保证权值向量的稀疏性。
L1 范数也是使参数矩阵 W 的元素尽可能是 0。L1 范数在一定条件下等价于 L0 范数，且 L1 范数比 L0 范数容易优化求解。

3. L2 正则化

定义：各元素的平方和的平方根。
作用：L2 范数假设参数服从高斯分布，可以抑制过拟合
L2 范数使参数矩阵 W 的元素接近 0。

L2 正则化等价于权重衰减：

$C_0 + \frac{\lambda}{2m}\sum_{i=1}^{n}w^2_i.$

C0 代表原始的代价函数，后面是 L2 正则化项。正则化项对所有权重参数 w 的平方求和，然后除以样本数量 m，为了计算方便再除以 2。 $\lambda$ 称为权重衰减系数。

4. 参考

qq_26697045

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
归一化与正则化

深度学习中的归一化和正则化1. 权重归一化机器学习的学习过程基于概率和统计学，学习到的知识能用于其它数据的一个基本假设是独立同分布(IID)，因此把数据变成同分布是很有必要的。1. 权重归一化权重归一化不归一化特征，而是归一化权重。假设卷积核的向量形式是w⃗\vec ww，感受野的向量形式是x⃗\vec xx，偏置为bbb。一个神经元的输出可以表示为：y=ϕ(w⃗⋅x⃗+b).y ...
复制链接

扫一扫

专栏目录