You Only Look One-level Feature 笔记

最新推荐文章于 2024-07-21 13:59:39 发布

bieliwuguiqi

最新推荐文章于 2024-07-21 13:59:39 发布

阅读量2.3k

点赞数 2

分类专栏： cvpr2021 文章标签：深度学习计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bieliwuguiqi/article/details/121487565

版权

cvpr2021 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Scale-aware Automatic Augmentation for Object Detection

Y ukang Chen1*†, Yanwei Li1†, Tao Kong2, Lu Qi1, Ruihang Chu1∗, Lei Li2, Jiaya Jia1.3

1 The Chinese University of Hong Kong 2 ByteDance AI Lab 3 SmartMore

published on cvpr2021

问题提出

FPN

FPN主要有两个核心的收益：

一方面，FPN可以进行多尺度特征融合，它将多个尺度的特征图融合在一起获得更好的表示；

另一方面，它又是一种分治策略，依据目标的不同尺度在不同级别的特征图上检测目标。

MiMo-SiSo对比试验

作者在RetinaNet的基础上通过解耦多尺度特征融合和分治功能设计了实验。具体而言，将FPN视作一个多进多出（Multiple-in-Multiple-out，MiMo）编码器，它从骨干网络编码多尺度特征并且为解码器即检测head提供特征表示。作者对MiMo（多进多出）、单进多出（SiMo）、多进单出（MiSo）和单进单出（SiSo）编码器进行了对比实验

这些实验结果表明两个事实：

第一，C5特征图上其实就包含了检测各种尺度目标的足够的上下文信息，这就导致SiMo编码器可以获得相当不错的效果；

第二，多尺度特征融合带来的收益要远远小于分治策略带来的收益，因此多尺度特征融合在FPN不是最关键的功能。

MiMo-SiMo编码器分析

作者先对MiMo编码器代价进行了一个定量分析。基于RetinaNet，将检测任务的pipeline分为三个部分：backbone、encoder（编码器）、decoder（解码器）

其中C表示模型的编码器和解码器中使用的通道数

左边：FLOPs，相比于SiSo结构，MiMo结构给编码器和解码器带来了巨大的内存开销

右边：FPS，MiMo结构比SiSo慢了很多，分析这个低速来源于高分辨率特征图（C3）上的目标检测

方法

设计一个SiSo结构取代MiMo结构

但是将MiMo直接换为SiSo会引起巨大的性能下降。

作者对此进行了详细分析，

第一，与C5特征图感受野匹配的目标尺度范围是有限的，这阻碍了不同尺度目标的检测表现；

第二，由于单级特征图上稀疏anchor生成策略造成的正样本不均衡问题。

Limited Scale Range

SiSo结构中只会输出固定感受野的单级别的特征图，如(a)所示

C5级别的特征图只能覆盖一个受限的感受野，当目标的尺度和感受野不匹配时，检测效果就会很差

作者设计了如上图所示的SiSo结构，名为Dilated Encoder。

包含两个组件，分别是Projector和Residual Blocks。

Projector首先是1×1的卷积层来降低通道维数，然后一个3×3卷积层（消除上采样的混叠效应），这与FPN一致。

然后，叠加连续4个卷积核膨胀率不同的残差块(第一个1x1卷积通道减少4倍，然后一个3x3膨胀卷积用于增大感受野，最后的1x1卷积恢复通道维度)，生成具有多个感受野的输出特征，覆盖所有对象的尺度（c）。

Imbalance Problem on Positive Anchors

在RetinaNet中，如果一个anchor和GT框之间的最大IoU大于一个给定的阈值，这个anchor就是一个正样本

这个策略称为Max-IoU匹配

当采用SiSo编码器时，anchor的数量比MiMo编码器中的anchor的数量减少了很多，从100k减少到5k，导致anchor是非常稀疏的。

对稀疏的anchor采用Max-IoU匹配会引起一个问题，如下图所示，大GT框比小GT框会产生更多的正anchor，从而造成了正anchor的不平衡问题。

Top1：只取IoU最大的框

ATSS：自适应采样正锚点

Max-IoU：RetinaNet使用的方法

因此，作者设计了一个均衡匹配（Uniform Matching）策略，即对每个GT框而言，只采用最接近的k个anchor作为正anchor，这就能如上图一样保证每个GT框不论尺寸大小都有相同数目的正anchor。

遍历每个 gt bbox，然后选择 topk 个距离最近的 anchor 作为其匹配的正样本
遍历每个 gt bbox，然后选择 topk 个距离最近的预测框作为补充的匹配正样本
计算 gt bbox 和预测框的 iou，在所有负样本点中，将 iou 高于 0.75 的负样本强制认为是忽略样本
计算 gt bbox 和 anchor 的 iou，在所有正样本点中，将 iou 低于 0.15 的正样本强制认为是忽略样本

YOLOF

后缀为R101或X101:使用ResNet-101或RetNeXt-101-64×4d
使用多尺度培训和测试技术(†表示多尺度培训，‡意味着多尺度测试)
数据集：COCO2017
FPS是根据总推断纯计算时间在2080Ti上以批大小1计算
Uniform Matching 作用非常大，说明该模块其实发挥了 FPN 的分治作用
Dilated Encoder 配合 Uniform Matching 可以提供额外的变感受野功能，有助于多尺度物体预测

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
You Only Look One-level Feature 笔记

下一篇 Scale-aware Automatic Augmentation for Object Detection
复制链接

扫一扫

专栏目录

bieliwuguiqi CSDN认证博客专家 CSDN认证企业博客

码龄5年

30: 原创

39万+: 周排名

8万+: 总排名

2万+: 访问

: 等级

410: 积分

55: 粉丝

72: 获赞

7: 评论

89: 收藏

私信

关注

热门文章

分类专栏

cvpr2021 3篇

最新评论

计算机视觉 CV 八股分享 [自用]（更新中......）
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
计算机视觉 CV 八股分享 [自用]（更新中......）
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
计算机视觉 CV 八股分享 [自用]（更新中......）
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Dense Relation Distillation with Context-aware Aggregation for Few-Shot Object Detection
小叮当铛铛铛: 博主，你好，请问这篇文章的代码复现成功了吗？
TypeError: ‘numpy.float64‘ object cannot be interpreted as an integer解决方法
bieliwuguiqi: C:\Users\wsb\anaconda3 C:\Users\wsb\anaconda3\envs\dete2for_bishe

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。