2017 CVPR Best / Oral
Densely Connected Convolutional Networks
Introduce
结构和网络图
由来
- 梯度消失问题解决方案:
(1)Highway Network,Residual Network通过前后两层的残差链接使信息尽量不丢失
(2)Stochastic depth通过随机drop掉Resnet的一些层来缩短模型
(3)FractalNets通过重复组合一些平行的层序列来保证深度的同时减轻这个问题。
共性:都是在前一层和后一层中都建立一个短连接。
ResNet,Highway Networks,Stochastic depth,FractalNets等
核心都在于:create short paths from early layers to later layers
DenseNet:直接concat(resnet用的是sum)来自不同层的特征图
(DenseNet脱离了加深网络层数(ResNet)和加宽网络结构(Inception)来提升网络性能的定式思维,从特征的角度考虑,通过特征重用和旁路(Bypass)设置,既大幅度减少了网络的参数量,又在一定程度上缓解了gradient vanishing问题的产生.结合信息流和特征复用的假设)
(ResNet,增加了来自上一层输入的identity函数)
ResNet中,提出了恒等映射(identity mapping)来促进梯度传播,同时使用使用 element 级的加法。它可以看作是将状态从一个ResNet 模块传递到另一个ResNet 模块的算法。
(DenseNet中,会连接前面所有层作为输入)
H l ( . ) H_l(.) Hl(.) 代表是 非线性转化函数(non-liear transformation),它是一个组合操作,其可能包括一系列的BN(Batch Normalization),ReLU,Pooling及Conv操作
在 DenseNet 中,每个层从前面的所有层获得额外的输入,并将自己的特征映射传递到后续的所有层,使用级联方式,每一层都在接受来自前几层的“集体知识(collective knowledge)”。
DenseNet 结构
1.Dense layer
一个Dense Block中是由L层dense laryer组成,layer之间是dense connectivity。