目标检测算法YOLOF:You Only Look One-level Feature

本文介绍 CVPR 2021 接收的目标检测论文 You Only Look One-level Feature。

原论文作者来自:中科院自动化所、中科院大学人工智能学院、中国科学院脑科学与智能技术卓越创新中心、旷视科技。

0 动机 

在高性能的目标检测网络中,特征金字塔网络(Feature Pyramid Network,FPN)是一个不可或缺的组成部分。作者认为FPN主要有2个作用:

其一是多尺度特征融合,提高了特征的丰富程度;

其二是使用分治法(divide-and-conquer),将目标检测任务按照目标尺寸不同,分成若干个检测子任务。

为了探索FPN的上述2个作用对检测器性能的贡献程度,作者做了一个实验,作者将检测器抽象成如下图所示个3个组成部分


编码器(Encoder)处理Backbone提取的特征,将处理结果传输给解码器(Decoder)用于分类和回归。

FPN可以看作一个MiMo(Multiple-in-Multiple-out)编码器,作者还设计了SiMo(Single-in-Multiple-out)、MiSo(Multiple-in-Single-out)、SiSo(Single-in-Single-out)编码器,这4种编码器的结构如下图所示:


上图中图(a)就是RetinaNet中的FPN,方框左侧的C3、C4、C5代表Backbone输出的特征,方框右侧的P3~P7代表传入Decoder的特征。

分别使用图(b)、(c)、(d)中的结构代替RetinaNet中的FPN,使用ResNet-50作为RetinaNet中的Backbone,分别训练4个网络并在COCO验证集上测试,结果如下图所示:


从上图中可以看出,使用MiMo和SiMo作为编码器,性能相近;使用MiSo和SiSo作为编码器,性能较差。这种现象说明了如下问题:

  • 相比于MiMo,SiMo只使用Backbone输出的C5特征作为输入,使用SiMo作为编码器构建的网络性能基本与MiMo相当,说明Backbone输出的C5已经包含了足够的信息用于构建高性能检测器;

  • 相比于MiMo和S

  • 8
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值