You Only Look One-level Feature 笔记

Scale-aware Automatic Augmentation for Object Detection

Y ukang Chen1*†, Yanwei Li1†, Tao Kong2, Lu Qi1, Ruihang Chu1∗, Lei Li2, Jiaya Jia1.3

1 The Chinese University of Hong Kong 2 ByteDance AI Lab 3 SmartMore

published on cvpr2021

问题提出

FPN

FPN主要有两个核心的收益:

一方面,FPN可以进行多尺度特征融合,它将多个尺度的特征图融合在一起获得更好的表示;

另一方面,它又是一种分治策略,依据目标的不同尺度在不同级别的特征图上检测目标。

MiMo-SiSo对比试验

作者在RetinaNet的基础上通过解耦多尺度特征融合和分治功能设计了实验。具体而言,将FPN视作一个多进多出(Multiple-in-Multiple-out,MiMo)编码器,它从骨干网络编码多尺度特征并且为解码器即检测head提供特征表示。作者对MiMo(多进多出)、单进多出(SiMo)、多进单出(MiSo)和单进单出(SiSo)编码器进行了对比实验

这些实验结果表明两个事实:

第一,C5特征图上其实就包含了检测各种尺度目标的足够的上下文信息,这就导致SiMo编码器可以获得相当不错的效果;

第二,多尺度特征融合带来的收益要远远小于分治策略带来的收益,因此多尺度特征融合在FPN不是最关键的功能。

MiMo-SiMo编码器分析

作者先对MiMo编码器代价进行了一个定量分析。基于RetinaNet,将检测任务的pipeline分为三个部分:backbone、encoder(编码器)、decoder(解码器)

 

其中C表示模型的编码器和解码器中使用的通道数

左边:FLOPs,相比于SiSo结构,MiMo结构给编码器和解码器带来了巨大的内存开销

右边:FPS,MiMo结构比SiSo慢了很多,分析这个低速来源于高分辨率特征图(C3)上的目标检测

方法

设计一个SiSo结构取代MiMo结构

但是将MiMo直接换为SiSo会引起巨大的性能下降。

作者对此进行了详细分析,

第一,与C5特征图感受野匹配的目标尺度范围是有限的,这阻碍了不同尺度目标的检测表现;

第二,由于单级特征图上稀疏anchor生成策略造成的正样本不均衡问题

Limited Scale Range

SiSo结构中只会输出固定感受野的单级别的特征图,如(a)所示

C5级别的特征图只能覆盖一个受限的感受野,当目标的尺度和感受野不匹配时,检测效果就会很差

作者设计了如上图所示的SiSo结构,名为Dilated Encoder

包含两个组件,分别是ProjectorResidual Blocks

Projector首先是1×1的卷积层来降低通道维数,然后一个3×3卷积层(消除上采样的混叠效应),这与FPN一致。

然后,叠加连续4个卷积核膨胀率不同的残差块(第一个1x1卷积通道减少4倍,然后一个3x3膨胀卷积用于增大感受野,最后的1x1卷积恢复通道维度),生成具有多个感受野的输出特征,覆盖所有对象的尺度(c)。

Imbalance Problem on Positive Anchors

RetinaNet中,如果一个anchor和GT框之间的最大IoU大于一个给定的阈值,这个anchor就是一个正样本

这个策略称为Max-IoU匹配

当采用SiSo编码器时,anchor的数量比MiMo编码器中的anchor的数量减少了很多,从100k减少到5k,导致anchor是非常稀疏的。

对稀疏的anchor采用Max-IoU匹配会引起一个问题,如下图所示,大GT框比小GT框会产生更多的正anchor,从而造成了正anchor的不平衡问题。

Top1:只取IoU最大的框

ATSS:自适应采样正锚点

Max-IoU:RetinaNet使用的方法

因此,作者设计了一个均衡匹配(Uniform Matching)策略,即对每个GT框而言,只采用最接近的k个anchor作为正anchor,这就能如上图一样保证每个GT框不论尺寸大小都有相同数目的正anchor。

  • 遍历每个 gt bbox,然后选择 topk 个距离最近的 anchor 作为其匹配的正样本

  • 遍历每个 gt bbox,然后选择 topk 个距离最近的预测框作为补充的匹配正样本

  • 计算 gt bbox 和预测框的 iou,在所有负样本点中,将 iou 高于 0.75 的负样本强制认为是忽略样本

  • 计算 gt bbox 和 anchor 的 iou,在所有正样本点中,将 iou 低于 0.15 的正样本强制认为是忽略样本

YOLOF

  • 后缀为R101或X101:使用ResNet-101或RetNeXt-101-64×4d

  • 使用多尺度培训和测试技术(†表示多尺度培训,‡意味着多尺度测试)

  • 数据集:COCO2017

  • FPS是根据总推断纯计算时间在2080Ti上以批大小1计算

  • Uniform Matching 作用非常大,说明该模块其实发挥了 FPN 的分治作用

  • Dilated Encoder 配合 Uniform Matching 可以提供额外的变感受野功能,有助于多尺度物体预测

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
"YOLO:统一、实时的目标检测"简称YOLO,是一种深度学习算法,用于实时目标检测。它的核心思想是将目标检测问题转化为单个统一的回归问题,使得只需一次前向传播即可直接预测出目标的位置和类别。 相比于传统的目标检测方法,YOLO具有显著的优势。首先,YOLO采用了统一的网络结构,端到端地完成整个目标检测过程。这意味着不需要将图像分割成多个部分进行处理,减少了冗余计算,提高了计算效率。 其次,YOLO实时性能出色。它将目标检测任务与边界框回归深度学习模型相结合,使得可以在一次前向传播中同时预测出多个目标的位置和类别。因此,YOLO在速度上远远超过了传统的基于滑窗的目标检测方法。 此外,YOLO还采用了多尺度的特征图来检测不同大小的目标。通过在不同层级的特征图上进行预测,YOLO可以有效地捕捉目标的多尺度信息,并提高了目标检测的准确性。 然而,YOLO也存在一些局限性。由于采用了统一的网络结构,YOLO对小尺寸的目标检测相对较差。此外,当目标之间存在重叠或者遮挡时,YOLO可能会出现漏检或者虚警的情况。 总而言之,YOLO是一种统一、实时的目标检测算法,具有高效、准确的特点。它在图像处理、智能安防、自动驾驶等领域具有广泛的应用前景。然而,为了提升其性能,在处理小尺寸目标和目标重叠等复杂场景时,仍需要不断的研究和优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值