当网络层数达到一定的数目以后,网络的性能就会开始退化
简单的增加网络的深度,会导致梯度消失和爆炸,解决办法一般是正则初始化和中间的正则化层和通过Batch Normalization,很大可能会得到的是局部最优解
过拟合一般可以通过采集海量数据,并配合Dropout正则化等方法
残差在数理统计中是指实际观察值与 估计值 ( 拟合值 )之间的差。
训练前的目标是想H(X)接近F(X)、因为H(X)难以训练,就转变思想去训练残差F(X),然后通过F(X)+X=H(X)来得到H(X)。
ResNet的出现其实就是为了解决网络深度变深以后的性能退化问题。
使用RseNet更容易拟合恒等映射
只有当输入X和F(X)维度相同时才可以相加,当维度不同时,采用两种方法进行相加:
1、采用zero-padding增加维度,此时需要先做一个downsamp,可以采用池化层,这样不会增加参数
2、采用新映射的方式,做1*1的卷积,但是会增加计算量,增加参数
一般采用将1,2综合的方式,当相同时不调整,不同时调整
ResNet的网络结构
变化主要体现在ResNet直接使用stride=2的卷积做下采样,并且用global average pool层替换了全连接层。ResNet的一个重要设计原则是:当feature map大小降低一半时,feature map的数量增加一倍,这保持了网络层的复杂度
FPN特征金字塔
提出了特征金字塔的网络结构,能在增加极小的计算量的情况下,处理好物体检测中的多尺度变化问题。解决下采样不能很好的识别小物体
是一种自上而下的网络结构,用来构建不同尺寸的具有高级语义的特征图
SSD结构相当于也是一个金字塔,但是它放弃了最低的那几层,但就是这些最低的几层对于小物体的检测十分重要
为了解决这种问题,这种网络结构,能够在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。
FPN的网络结构图如下:左边为VGG16的每一个conv的最后一层的输出,拿出来去做FPN的特征,C1没有拿出来是因为语义实在是太低了
总结:左侧时一个网络C,通过11的卷积得到相同的通道数变成M,然后M5通过step=2的上采样,也就是图二类似,然后加上C4。关系式为:M52+C4=M4,最后再通过3*3的卷积得到特征图