-
使用为图像分类设计的backbone处理目标检测时的问题
a. 网络层数和结构的不同。目标检测网络一般采用更多的层数,VGG等网络一般只有5个阶段,也就是降采样5次到32分之一的大小,但是如FPN为了处理大物体增加了P6,RetinaNet也为了同样的目的增加了P6,P7。那么额外的层数就并不会在ImageNet中进行预训练。(这点有一些疑惑,对于预训练好的模型,再加新的卷积层会有很大影响吗
b. 对大物体定位的不准确。特征图相对于输入的图像,降采样32倍,所以有很强的语义信息和很大的感受野,这是图像分类任务的成功原因。但是这不利于目标的定位,目标的轮廓会变得非常模糊而无法正确的回归。
c. 小物体不可见。降采样多次后,小物体很容易由于分辨率的下降和大量环境信息的融合而丢失本身的信息。因此FPN在较浅的层进行小物体的检测。但是浅层的语义信息不足,可能不足以识别物体的种类。FPN对此采用的上采样的方法仍然存在问题,那就是如果在底层已经丢失了,那么即使上采样后,小物体仍然是丢失的。 -
DetNet的特点
a. stages是直接对目标检测设计,那么在预训练时就没有层会无法训练到了。
b. 保持了特征的空间分辨率且不降低感受野
c. 在保证高分辨率特征的情况下保持了效率 -
Det的结构
a. 采用了RestNet-50为基础结构。
b. 在前四阶段都是完全一致的,从第五阶段开始变化。
i. 首先降采样不变了,到16x为止。
ii. 其次,采用空洞卷积替换普通的卷积,增大了感受野,这对于FPN等网络使用的多阶段检测很有效。
iii. 最后,为了保持效率,保持了channels的不变。 -
效果
a. 将DetNet与FPN结合后,在MSCOCO上进行验证。训练策略省略~不过这里有个typical “2x” training不是很了解,挖坑待填。
b. 可以看到,DetNet完全胜于ResNet-50,在与运算更多,网络更深的ResNet-101比较中,也是互有胜负,表现基本相同。
DetNet论文笔记
最新推荐文章于 2021-03-09 20:46:57 发布