CS231N 笔记5_神经网络训练_魏秀参cs231n-CSDN博客

本文链接：https://blog.csdn.net/qq_19784349/article/details/78750677

权值初始化

2010年，Glorot等人提出了“Xavier初始化”，他们关注了神经元的方差表达式。具体目的大致为使得每层输出的方差尽量相等；

Batch Normalization

Batch Normalization, 批规范化，即在每次SGD时，通过mini-batch来对相应的activation做规范化操作，使得结果（输出信号各个维度）的均值为0，方差为1。其本质是为了解决反向传播过程中的梯度问题（消散或爆炸）。
BN可以应用于网络中任意的activation set。在CNN中，BN应作用在非线性映射前，即对 $x = Wx+b$ 做规范化。
，在神经网络训练时遇到收敛速度很慢，或梯度爆炸等无法训练的状况时可以尝试BN来解决。另外，在一般使用情况下也可以加入BN来加快训练速度，提高模型精度。
该小节的总结取自于知乎-魏秀参博士

白化

从Network in Network-读后笔记剪切的部分知识
白化是一种重要的预处理过程，其目的是降低输入数据的冗余性，使得经过白化处理的输入数据具有如下性质：

特征之间相关性较低；
所有特征具有相同的方差；

白化处理分PCA白化和ZCA白化，PCA白化保证数据各维度的方差为1，而ZCA白化保证数据各维度的方差相同。
PCA白化可以用于降维也可以去相关性，而ZCA白化主要用于去相关性，且尽量使白化后的数据接近原始输入数据。

PCA白化

PCA白化的两个要求：①特征之间相关性降低； ② 所有特征的方差都为1；
首先进行的是降低特征之间的相关性。我们选取前K大的特征值的特征向量作为投影方向，如果K小于维度n，则是PCA降维；如果K等于维度n，则是相抵特征之间的相关性。具体做法为将K个特征向量组成矩阵U，将 $u^Tx$ 作为新的数据变量。
其作用方式可以由以下两图简单显示：
原数据展示：
原图片
作用后数据展示：
作用后的图片
上述两图表示PCA作用的方式为改变基函数，使得数据之间的相关性降低（原先是x2和x1是正相关的，作用后变得基本无关），但数据之间的相对位置并没有改变。

第二个要求为使每个输入特征具有单位方差。具体做法为使用 $\frac 1{\sqrt{\lambda_i}}$ 作为缩放因子直接缩放每个特征 $x_{rot, i}$ ，计算公式为 $x_{PCAwhite, i} = \frac {x_{rot, i}}{\sqrt{\lambda_i}}$ 。经过PCA白化后的数据分布如下图所示，此时的协方差矩阵为单位矩阵I。
PCA白化后的数据分布：