Andrew Ng-深度学习-第二门课-week3(归一化)

最新推荐文章于 2021-08-04 13:18:53 发布

linxid

最新推荐文章于 2021-08-04 13:18:53 发布

阅读量379

点赞数

分类专栏：人工智能机器学习文章标签： BatchNormalization 正则化 BN

本文链接：https://blog.csdn.net/linxid/article/details/99982934

版权

人工智能同时被 2 个专栏收录

38 篇文章 12 订阅

订阅专栏

机器学习

26 篇文章 6 订阅

订阅专栏

1. 调参流程：

参数重要性：
学习率 $\alpha$ > (hidden units/batch_size) > 学习率衰减因子/网络层数 > $\beta_1(0.9), \beta_2(0.999)，\epsilon(10^{-8})$

随机调参要比网格调参效果更好。

合理选择超参数范围以及参数的尺度：

均匀分布：隐藏单元的数量 $n^{[l]}$ ；网络层数；
log均匀分布：学习率；

2. BatchNormalization:

2.1 什么是Internal Covariate Shift：

我们把网络中间层在训练过程中，数据分布的改变称之为：“Internal Covariate Shift”。
除了输入层的数据外(因为输入层数据，我们已经人为的为每个样本归一化)，后面网络每一层的输入数据分布是一直在发生变化的，因为在训练的时候，前面层训练参数的更新将导致后面层输入数据分布的变化。

论文定义： 在深层网络训练的过程中，由于网络中参数变化而引起内部结点数据分布发生变化的这一过程被称作Internal Covariate Shift。

2.2 ICS导致的问题：

简而言之，每个神经元的输入数据不再是“独立同分布”。

上层参数需要不断适应新的输入数据分布，降低学习速度。
下层输入的变化可能趋向于变大或者变小，导致上层落入饱和区，使得学习过早停止。
每层的更新都会影响到其它层，因此每层的参数更新策略需要尽可能的谨慎。

2.3 什么是BN：

输入： $B = {x_{1...m}}$ (x over mini-batch); $\beta, \gamma$ (Parameters)
输出： ${y_i = BN_{γ,β}(x_i)}$

$\begin{aligned} \mu_{\mathcal{B}} & \leftarrow \frac{1}{m} \sum_{i=1}^{m} x_{i} \\ \sigma_{\mathcal{B}}^{2} & \leftarrow \frac{1}{m} \sum_{i=1}^{m}\left(x_{i}-\mu_{\mathcal{B}}\right)^{2} \\ \widehat{x}_{i} & \leftarrow \frac{x_{i}-\mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}} \\ y_{i} & \leftarrow \gamma \widehat{x}_{i}+\beta \equiv \operatorname{BN}_{\gamma, \beta}\left(x_{i}\right) \end{aligned}$

通过数据分布： 让每一层网络的输入数据分布都变得稳定，但却导致了数据表达能力的缺失；
上述算法的最后一步，可以恢复数据本身的表达能力。

2.4 Normalization 为什么会有效

权重伸缩不变性： $\operatorname{Norm}\left(\mathbf{W}^{\prime} \mathbf{x}\right)=\operatorname{Norm}(\mathbf{W} \mathbf{x})$ ； $\mathbf{W}^{\prime}=\lambda \mathbf{W}$

有效地提高反向传播的效率
$\frac{\partial N o r m\left(\mathbf{W}^{\prime} \mathbf{x}\right)}{\partial \mathbf{x}}=\frac{\partial N o r m(\mathbf{W} \mathbf{x})}{\partial \mathbf{x}}$
权重的伸缩变化不会影响反向梯度的 Jacobian 矩阵，因此也就对反向传播没有影响，避免了反向传播时因为权重过大或过小导致的梯度消失或梯度爆炸问题，从而加速了神经网络的训练。许网络使用饱和性激活函数（例如sigmoid，tanh等）。
参数正则化的效果，使用更高的学习率
$\frac{\partial N o r m\left(\mathbf{W}^{\prime} \mathbf{x}\right)}{\partial \mathbf{W}^{\prime}}=\frac{1}{\lambda} \cdot \frac{\partial N o r m(\mathbf{W} \mathbf{x})}{\partial \mathbf{W}}$
因此，下层的权重值越大，其梯度就越小。这样，参数的变化就越稳定，相当于实现了参数正则化的效果，避免参数的大幅震荡，提高网络的泛化性能。

数据伸缩不变性： $\operatorname{Norm}\left(\mathbf{W} \mathbf{x}^{\prime}\right)=\operatorname{Norm}(\mathbf{W} \mathbf{x})$ ； $\mathbf{x}^{\prime}=\lambda \mathbf{x}$