lav filters有什么用_用实际的案例，带你深入探究CNN初始化-CSDN博客

全文共 2174字，预计学习时长 4分钟

本文作者将用实际的案例，带你深入探究CNN初始化。

上周，我用在CIFAR10数据集上训练的VGG16模型进行了一些实验。由于模型需要从头开始训练，所以我并未采用ImageNet的预训练模型。

我设置了训练50个epoch，然后去喝了杯咖啡。回来之后，却发现学习曲线变成了这样：

这个模型没有学到任何东西！

我见过收敛得很慢的网络，也见过振荡、过度拟合、发散的网络，但像这种什么也没有学到的模型还是头一次见。于是，我深入研究了一下其中的原因。

实验

建立模型时，我遵循了原始的VGG16结构，但移除了大多数完全连接的层，因此几乎只剩下卷积层。

要找到上述训练曲线出现的原因，还需要知道：当模型学习不佳时，往往可以从梯度找到原因。以下方法可以得到每层的平均值和标准偏差:

转换为图表如下：

使用Xavier初始化的 VGG16 梯度统计值

哦，原来我的模型梯度为0……或许我们应该检查激活值在各层变化的过程。通过以下方法可以得到它们的平均值和标准差：

转化为图表形式如下：

使用Glorot均匀分布初始化的 VGG16 梯度统计值

原来问题出在这里！

给你一点小提示，计算每个卷积层梯度的函数如下:

其中Δx和Δy表示梯度∂L/∂x和∂L/∂y。计算梯度用到了反向传播算法(BP算法)和链式法则，也就是说，要从最后一层开始，反向传播到前面的层。那么，如果最后一层的激活值接近0会发生什么呢？确切地说，在我的模型里，任何地方的梯度都等于0，无法反向传播，该网络也因此无法学习任何东西。

由于我的网络非常简单 (没有批标准化，没有Dropout算法，没有数据扩充，…...)，所以问题的根源很可能是初始化不佳，因此我翻阅了何恺明(Kaiming He)的论文，下面简单介绍其主要内容。

论文传送门：https://arxiv.org/pdf/1502.01852.pdf

初始化方式

初始化向来是深度学习的重要研究领域。随着神经架构和非线性的不断发展，其重要性也不断提高。良好的初始化是我们能够训练深度神经网络的原因。

以下内容为何恺明论文的中心思想，展示了使以ReLU为激活函数的CNN(卷积神经网络)初始化良好所应具备的条件。这需要一点数学基础，相信你能掌握要点。

先来看卷积层ｌ的输出：

假设权重w和元素x相互独立且分布相同，如果偏差被初始化为0，那么：

n表示一个层中的权重数(即n = k²c)。经过下列独立变量乘积的方差表达式：

然后是：

如果权重w的平均值为0，则：

经过König-Huygens性质：

最终得到：

然而，由于使用的是ReLU激活函数，于是：

因此：

这是单个卷积层输出的方差。如果要计算所有层，则要用到所有单层方差的乘积，则：

由于结果为乘积，很容易看出，如果每层的方差不接近1，那么该网络会迅速衰减。如果小于1，则将迅速消失至0；而如果大于1，那么激活值将无限增长，最终结果甚至无法显示在计算机上(NaN)。因此，要得到一个表现良好的ReLU CNN，必须严格遵守：

Xavier和Glorot对比了使用标准初始化和他们设计的初始化方案训练深度CNN所出现的情况。

传送门：http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf

对比Xavier / Glorot初始化(蓝色)及Kaiming初始化(红色)的22层ReLU CNN训练

这张图是不是很眼熟？没错，这正是开头提到的情况。使用Xavier / Glorot初始化的网络没有学到任何东西。

你觉得哪一条表示Keras的默认初始化？

没错！在Keras的默认情况下，卷积层按照Glorot均匀分布进行初始化：

keras.layers.Conv2D(filters, kernel_size, strides=(1, 1), padding='valid',  data_format=None, dilation_rate=(1, 1), activation=None,  use_bias=True, kernel_initializer='glorot_uniform', bias_initializer='zeros',  kernel_regularizer=None, bias_regularizer=None, activity_regularizer=None, kernel_constraint=None,  bias_constraint=None)

那么，如果改为Kaiming 均匀分布会发生什么？

使用Kaiming初始化

重新创建VGG16模型，这一次将初始化更改为he_uniform。

训练模型之前，先检查激活值和梯度。