在ResNet之后,骨干网络的结构有两种趋势,一种是更深,另一种是更宽,而作者则是从feature入手,通过对feature的极致利用达到更好的效果和更少的参数
而DenseNet则不是,它在ResNet的short-path的基础上提出了一种稠密卷积的思想,进一步缓解了梯度消失的问题,加强了特征提取、特征重用的效果,并且显著减少了参数量,同时最终模型的尺寸也比较小
在每一个稠密卷积块中,它的输入是前面所有层的输出进行合并之后的结果,它的输出同样会作用到后面的所有层。这样一来,信息或者梯度的流通就非常通畅了,一方面使得网络更容易训练,另一方面也使得网络达到非常好的特征提取的作用
DenseNet的优点:
1、减轻了vanishing-gradient(梯度消失)
2、加强了feature的传递
3、更有效地利用了feature
4、一定程度上较少了参数数量
DenseNet的一个优点是网络更窄,参数更少,很大一部分原因得益于这种dense block的设计,后面有提到在dense block中每个卷积层的输出feature map的数量都很小(小于100),而不是像其他网络一样动不动就几百上千的宽度。同时这种连接方式使得特征和梯度的传递更加有效,网络也就更加容易训练。
原文的一句话:Each layer has direct access to the gradients from the loss function and the original input signal, leading to an implicit deep supervision.直接解释了为什么这个网络的效果会很好。前面提到过梯度消失问题在网络深度越深的时候越容易出现,原因就是输入信息和梯度信息在很多层之间传递导致的,而现在这种dense connection相当于每一层都直接连接input和loss,因此就可以减轻梯度消失现象,这样更深网络不是问题。
另外作者还观察到这种dense connection有正则化的效果,因此对于过拟合有一定的抑制作用,博主认为是因为参数减少了(后面会介绍为什么参数会减少),所以过拟合现象减轻。