Learning Spatial Fusion for Single-Shot Object Detection one-stage-yolo优化

最新推荐文章于 2024-03-14 00:28:17 发布

lovep1

最新推荐文章于 2024-03-14 00:28:17 发布

阅读量382

点赞数 1

分类专栏：目标检测文章标签：计算机视觉人工智能深度学习 python 机器学习

本文链接：https://blog.csdn.net/lovep1/article/details/114030593

版权

本文介绍了一种名为ASFF（Adaptively Spatial Feature Fusion）的新方法，用于解决基于特征金字塔的单镜头对象检测器中的特征不一致问题。通过学习如何在空间上过滤信息冲突，ASFF提高了检测器的精度和性能，同时保持了实时速度。在YOLOv3的基础上，ASFF实现了在COCO数据集上的显著性能提升，达到0.44的AP，并且在VOC上达到了0.82的AP。ASFF模块包括特征缩放和自适应融合两部分，其可微分的特性允许端到端训练，适用于具有特征金字塔结构的单镜头检测器。

摘要由CSDN通过智能技术生成

paper：https://arxiv.org/abs/1911.09516

code：https://github.com/ruinmessi/ASFF

此篇文章在coco上基于yolov3的baseline将精度刷到0.44，且fps为29，仍然可以做到超实时，主要还是一种新的特征融合方法+相当强大的baseline（yolov3++测试ap0.38），asff模块之外加入了可变形卷积，编译起来有点麻烦，在voc上作者称可以达到0.82左右，总体来说，在yolov4和yolov5没有出来之前，是当年的one-stage的sota算法，本文将按照论文结构解读。

Abstract

特征金字塔是解决对象检测中尺度变化不一的常用方法。然而，对于基于特征金字塔的single-shot检测器而言，不同尺度之间的特征不一致限制了检测器精度和性能。在这项工作中，我们提出了一种新颖的，数据驱动的金字塔特征融合策略，称为自适应空间特征融合（ASFF）。它是一种能够学习如何在空间上过滤信息冲突以抑制特征尺度不一致的方法，从而改善了特征的比例不变性，引入的推理开销几乎没有，当年的sota之一，如下图所示。

Introdeuction

文中指出，与图像金字塔相比，特征金字塔的主要缺点之一就是不同尺度的feature是不一致或者冲突的，具体来说，当使用特征金字塔来检测对象时，将采用启发式引导的特征选择；大实例通常与深层特征图相关联，小实例通常与浅层特征图相关联，当某个对象在某个级别的特征图中被指定为正时，它在其它层的相应区域被视为背景（yolo在计算positive example的时候应该是每一层特征都有各自的anchor，然后利用anchor与gt的iou计算正样本，那冲突的情况具体在哪个地方体现？本文的意思应该是，当一个目标在3层feature上都有正样本那当然是理想情况，但是最常见情况的是feature1上有，其他层没有，这个时候就造成了不一致、冲突），当图像同时包含大对象和小对象时，不同级别的特征之间冲突往往会占据特征金字塔的主要部分，这种不一致干扰了训练期间的梯度计算，并降低特征金字塔的有效性。

基于此，本文提出自适应空间特征融合（ASFFÿ