CS231n-2017 第6讲训练网络(上)_cs231n 保存网络-CSDN博客

本文链接：https://blog.csdn.net/suredied/article/details/82811720

训练网络模型所需要做的功课有：

本节与下一节将描述如上内容。

表达式为 $\sigma(x) = 1/(1+e^{-x})$ ，图像如下：

图 1. sigmoid函数

使用该函数做激活函数的缺点：

在正负饱和区域，其函数导数趋于0。导致在这些区域，利用梯度下降法不能有效更新参数。( $\partial L/\partial W$ 的表达中，有一项系数是激活函数的导数。)
sigmoid的输出都是正数，不是0-中心的。 $\partial L/\partial W$ 表达为一个列向量乘上行向量。其中列向量为前一层传递下来的误差项，行向量为本层激活函数的输出值。若激活函数输出一直为正，则 $W$ 的更新方向只能是全方向的某一部分。一个参数空间为2维的示例如下：

图 2. 二维参数空间中，sigmoid函数使得梯度方向只能取得全方向中的一半

超正切函数，表达式为 $1-e^{-x})/(1+e^{-x})$ ，图像如下:

图 3. tanh函数

缺点：在正负饱和区域，出现梯度消失现象。

Rectified Linear Unit，表达为 $\max(0, x)$ ，图像如下：

图 3. ReLU函数

缺点：

Leaky ReLU，表达为 $\max(0.01x, x)$ ；Parametric ReLU，表达为 $\max(\alpha x, x)$ ，其中 $\alpha$ 是进行学习的。图像如下：

图 4. LReLU和PReLU函数

Exponential Linear Unit，表达式为：

$\left\{ \begin{array}{ll} x & if \quad x > 0 \\ \alpha(e^x-1) & if \quad x \le 0 \end{array} \right.$
图像为：

图 5. ELU函数

表达式为 $\max(W_1^Tx_1+b_1,\, W_2^Tx_2+b_2)$ ，缺点就是使得参数数量翻倍。

激活函数选择策略

对一般应用场景而言，一般做的预处理包含：

下图说明了0均值化的必要性。在未做0均值化时，分界线稍微摆动一下，就有可能出现错误分类。而0均值化后，所能容忍的正确分类的参数范围会变大。

图 6. 0均值化的必要性

另外，如果某层输入值的均值不为0，那么该层的系数矩阵稍微改变一下，就有可能导致输出值的巨大变动，给学习带来困难。

若所有权值初始化为0，那么所有的神经元输出相同。考虑 $\partial L/\partial W$ 的表达，可知所有的参数(除了第一层)都将以同样的方式进行更新。
若权值初始化为小的随机数，使用tanh做激活函数：对于深层网络是有问题的。由于一层一层 $W$ 的作用，会导致线性加权后的结果集中分布在0值附近，从而导致梯度消失现象。

图 7. 10层网络，考察每层输出的分布：第一层表现为高斯分布。但后面若干层，分布都将集中于0附近，而方差会越来越小。

通常添加在全连接层/卷积层和非线性激活层之间，作用就是强制使得输出的数据具有0均值1方差的分布。
可以理解为一种正则化手段。对于训练数据，每个样本x的归一化参数依赖于其所在的批次，即批量归一化对训练数据而言是加入了一种随机化的扰动。对于测试数据，其归一化参数是在训练过程中累积平均得到，因此，把这种随机性给去除了。这符合正则化的思想。
好处：可以使用更大的学习速率；去除了训练效果对参数初始化的强依赖性。