目标检测论文总结：《Feature Selective Anchor-Free Module for Single-Shot Object Detection》

最新推荐文章于 2023-08-07 11:03:33 发布

我是DJ你会爱我吗

最新推荐文章于 2023-08-07 11:03:33 发布

阅读量266

点赞数

分类专栏：目标检测文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_42075898/article/details/105921019

版权

19 篇文章 0 订阅

订阅专栏

1. 概述

RetinaNet等使用FPN结构的单阶段检测器依据输入图片中目标的大小确定目标的特征来源于FPN特征的哪一层，再通过该层上目标与anchor box的IoU为anchor box分类，从而完成目标检测模型的训练及推理。
本篇论文认为：仅通过instance的大小确定instance的特征来源是不合适的，所选择出的特征不一定最优。应当让网络自身决定选择哪一level上的特征。另一方面，目标需要与得到的anchor box依据IoU匹配，由于anchor box位置固定，向目标进行边框回归时难度较大，应寻找一种不基于anchor box的边框回归方式。以上两点被论文归结为：①heuristic-guided feature selection; ②overlap-based anchor sampling。
基于anchor-based single-shot object detector存在的上述缺陷，本篇论文提出可应用于single-shot object detector的feature selective anchor-free模块。本篇论文需要理解的关键点有两个：一是如何进行feature selection，二是所谓anchor-free是如何实现的。

网络整体框架

网络主要由两部分构成，第一部分是FPN+anchor-based模块，第二部分是FSAF模块，后者完成特征层选择及anchor-free detection的功能

在这里插入图片描述

网络中新加了两条支路，分别完成anchor-free方式下每一位置的分类和边框回归。所谓anchor-free，在分类支路，对传来的feature maps进行K个3x3的卷积，得到的K层feature maps分别表征每一类在每个位置上的概率；对回归支路，进行4个3x3的卷积，得到4层feature maps，沿channel方向表征每一位置下边框的回归值。综合分类支路和回归支路，每个位置都得到一个预测框，取得该预测框的过程并不依赖anchor box，因此将这个过程描述为anchor-free。

在这里插入图片描述

图中双向箭头左侧是分类支路和回归支路得到的值，右侧是由输入图片instance得到的监督信号，使用不同的损失函数形式，分别求损失值。
类别监督信号生成过程：instance为"car"类，则把第k个feature maps上instance所在投影区域内的值设为1，投影区域外的值设为零。（作者在投影区域内又设置了一个effective box和ignored box，实际上是将effective box内的值设为1，ignored box中的值不参与反向传播）
边框监督信号生成过程：生成4个feature map，feature map上effective box位置的值不为零，其他位置都为零。四个feature map分别表征(i,j)位置距feature map上下左右边框的距离。

在这里插入图片描述

训练阶段，输入图片的每个instance在feature pyramid每一层上求一次损失值，取损失值最小的那一层作为instance的最优feature level，并将该损失函数值进行反向传播。（与基于instance尺寸选择feature level方式进行比较）
对训练集中每个instance都使用最合适的feature level求损失值并反向传播，意味着最终训练得到的网络参数对每个instance都是最优的。推理阶段，并不需要选择某个feature level，置信度高的feature level自然是更好的feature level。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

关注