主要贡献:提出MLFPN结构, backbone采用了VGG-16
为解决目标实例的尺度变化问题,主流做法有以下两种:
- 在测试阶段使用图像金字塔(如cascade RCNN),就是将原始图像缩放成一系列的图形,就像金字塔一样(数据量增大很多,计算开销很大)
- 从输入图像中提取出的特征金字塔上进行检测,这种方式在训练和测试阶段都可以使用
总结:使用多尺度的图像来提高识别率,其实就是增加数据,让数据更加丰富
各种不同的金字塔结构:
- SSD型:使用了主干网络的最后两层,再加上4个使用stride=2卷积的下采样方式构成
- FPN型:经过上采