说起来难受,自己的东西一直拖到YOLOv4出来了,唉。
作者在related work中做了个综述,包括:1.网络模型; 2.不增加前传时间但提点的tricks(bag of freebies); 3.略微增加前传时间但提点较大的tricks(bag of specials)。因为是综述这里就不一一罗列了。有一点值得一提的就是在进行网络模型分类的时候作者把一阶段网络称为"dense prediction",二阶段网络称为"sparse prediction"。这种说法比较少见但想想确实也合理。因为一阶段网络是对每个feature点都要做分类和回归,而二阶段网络在找出roi之后进行分类和精回归。如果把二阶段网络的第一阶段与一阶段网络直接相比的话,少了具体分类的部分,在这里只有前景和背景一说。
网络结构
作者称,对于分类的最优参考模型对于检测并不一定是最优的,detector需要以下几点特性:
1.更高的输入网络尺寸用于检测多重小目标
2.为了覆盖更高的输入尺寸,使用更多的层已获得更大的感受野
3.更多的参数,以更好地在单一图像中检测不同尺度的物体
基于此CSPDarknet53以更多的3*3卷积(29:16)获得了比CSPResNext50更大的感受野。
作者将不同大小的感受野的影响总结如下:
1.上升到目标大小,获得整个目标的视野
2.上升到网络大小,能够学习到目标周围context信息
3.溢出网络大小,增加图像和最终激活之间的连接数
又是一个我之前见的比较少的说法。挺有道理的总结。
最后作者采用CSPDarknet53作为主干,整合SPP模块,用PANet代替FPN作为YOLOv4的结构。
<一些expensive的方法没有使用,以让所有人都能在平民显卡上复现YOLOv4。。。。。。。。。。。。。。