简介
近年来,卷积神经网络实现了很大的发展,这已经显著提升了很多不同应用的性能表现,深度卷积神经网络可以成功的原因很大程度是因为其多个非线性隐藏层的结构,其中包含了数以百万计的参数,因此可以学习输入和输出之间的关系。
作者观察提出了一种新的方法,称为加权信道丢失率(WCD)的正则化深卷积神经网络(CNN)。在一个卷积神经网络的卷积堆栈内,所有的通道都是由之前的层生成的,并会在下一层得到平等的对待,这样就产生了一个想法,这样的分布可能不是最优的,因为事实可能证明某些特征比其他特征更加的有用。
与全连接层中随机选择神经元设置为0的Dropout不同,WCD对卷积层堆栈中的通道进行操作。具体来说,WCD包括两个步骤,即评级渠道和选择渠道,和三个模块,即全局平均池,加权随机选择和随机数生成器。它根据激活的相对幅度对通道进行过滤选择,可以插入任意两个连续的层中,并可以进一步作为一种建模通道之间的依赖关系的特殊方法。WCD是完全无参数的,仅在训练阶段部署,计算成本非常低。测试阶段的网络保持不变,因此根本不增加推理成本。此外,当与现有的网络相结合时,它不需要在ImageNet上进行再训练,因此非常适合在小型数据集上应用。最后,使用VGGNet- 16、ResNet-101、incepee - v3的WCD在多个数据集上进行了实验评估。广泛的结果表明,WCD可以在基线上带来一致的改进。
WCD
WCD的动机正是为了缓解finetuning CNN对小数据集的过度拟合,通过引入更多的正则化,WCD可以帮助网络从输入中学习更健壮的特性。我们的方法属于在神经网络中加入正则化的范畴。
WCD与Dropout的不同之处在于,它不是在神经元上工作,而是在通道上工作。而在卷积层栈中,每个信道都是一个基本单元。Dropout中的神经元选择是完全随机的,相反,WCD根据激活状态选择通道。实际上,Dropout可以看作是WCD的一个特例。
WCD过程
(1)首先,对前一层的通道进行评级,并为每个通道分配一个分数,整个分数是使用全局平均化GAP得到的。
(2)其次,会生成一个二元掩码来指示通道