论文阅读 《Densely Connected Convolutional Networks》
标签(空格分隔): ReadingNote ActionRecognition
2017CVPR BestPaper
[gayhub]
Abstract
如果卷积网络在接近输入的网络层和接近输出的网络层之间包含短连接(short connections)的话,这些网络会更加deeper、精确,训练起来更加有效。
DenseNet中,每一层都以一种前馈方式和其他的所有层相连。对于每一层,前面所有曾的feature maps都作为这一层的输入,这一层的feature map作为后面所有层的一个输入。DenseNet的几个优点如下:
- 减轻梯度消失问题(strong gradient flow。)
- 加强特征传播
- 鼓励特征重用
- 大幅度减少参数数量
4dataset:
- CIFAR-10
- CIFAR-100
- SVHN
- ImageNet
更少的计算量,更好的表现。
Intro
CNN的问题:梯度消失。
ResNet、HightWay Networks、FractalNet
这些方法都有不同的网络拓扑结构和训练步骤,但是他们都有一个共同的思想:在前后的网络层之间构建短路径(short paths)。【they create short paths from early layers to later layers.】
densenet中feature map size一致的所有的层,都直接和彼此相连。为了保留前馈特性,每一层从前面所有的层中获取额外的输入,这一层的feature map作为后面所有层的一个输入。和ResNet不同的是,在特征传入一个网络层的时候,我们不会把特征通过和的形式结合起来,而是采用串联的形式。由于稠密性,所以叫做DenseNet。
比传统的CNN需要的参数更少,因为不用重复学习冗余的feature map。ResNet通过加法恒等变换显式的保存了信息。近期ResNet的变体结构表明了许多层的贡献都非常小,可以在训练的时候随机drop掉。这让ResNet变得像没有展开的RNN了,但是参数数量还是非常大的,因为每一层都有自己的权值。DenseNet对于加到网络中的信息和被保存的信息有明显的区分。
另一个优点就是提升了信息流和贯穿网络的梯度,这样更容易训练。每一层都可以直接访问损失函数的梯度和原始输入信息,导致隐式的深监督(deep supervision)【对于传统cnn,每一层的监督信息只来自上一层。网络深了之后监督就变弱了。Densenet从最后的误差得到更直接的监督,让浅层也学到比较有分辨率的特征】。这能够帮助训练更深的网络结构。并且,我们观察到dense connections有正则的功能,减少了小数据上的过拟合风险。
Related work
DenseNet
ResNets. 传统卷积前馈网络将前一层的输出作为后一层的输入: xl=Hl(xl−1) 。 ResNets加了一个跳跃连接(skip-connection)通过一个恒等函数从旁路传递非线性变化: