Definition
分阶段的培训框架是将训练数据的信息逐渐呈现给网络。在训练早期,网络只能访问一部分数据,特别是数据的粗尺度特性,使得网络在粗尺度上提取特征,然后网络学习更精细的信息,并且从一千的阶段学习特征提取器从而获得更好的预测。也就是说,每个阶段提取的特征都是下一阶段特征提取的先决条件。
神经网络的训练是一个基于梯度的优化过程。这种训练策略通常存在梯度扩散问题,随着网络深度的增加,反向传播的梯度会迅速消失,因此,顶层学习速度最快。此外,由于只有分类层有足够多的自由度,所以分类层比特征提取层更容易过度拟合。因此,在任何阶段性的训练中,只对特征提取曾进行前一阶段的初始化。
Stage-wise Information Evolution
在已有的阶段学习框架中,传递给每个阶段的训练信息是逐步演化的,可实现方法如下:
- 输入域 x s x_s xs的逐步进阶
- 输出域 y s y_s ys的逐步进阶
- 训练集 T s T_s Ts的逐步进阶
本文使用的是第一张方法。
Experiments
实验使用标准的CIFAR10数据集,该数据集由10类32×32彩色图像组成,每类对象具有50000个训练样本和10000个测试样本。为了信息进阶,每个训练图像以S=5进行子采样。
对于阶段性训练,网络结构在训练过程中保持不变,我们使用两层卷积层,filters为64,卷积核大小为5×5,后面跟着非线性激活层和池化层stride为2,pool_size为3×3。第一层和第二层分别使用最大池化层和平均池化层。