自适应空间特征融合(ASFF)在单发目标检测中的应用-CSDN博客

本文链接：https://blog.csdn.net/qq_43349542/article/details/121363970

论文题目： 《Learning Spatial Fusion for Single-Shot Object Detection》
代码：https://github.com/ruinmessi/ASFF
ASFF相当于空间注意力。
解决的问题： 不同尺度特征之间的不一致性。
贡献：
本文提出了一种新的基于数据驱动的金字塔特征融合策略，称为自适应空间特征融合（ASFF），它通过学习权重参数的方式将不同层的特征融合到一起。它学习了空间过滤冲突信息的方法来抑制不一致性，从而提高了特征的尺度不变性，并且推理成本小。
在这里插入图片描述

单发检测器特征金字塔的不一致性：
具体来说，在使用特征金字塔检测对象时，采用启发式引导特征选择:大实例通常与上特征图相关联，小实例与下特征图相关联。当在某一层次的特征图中分配一个对象并将其作为正的对象时，其他层次的特征图中对应的区域被视为背景。因此，当一幅图像同时包含小目标和大目标时，不同层次特征之间的冲突往往占据特征金字塔的主要部分。这种不一致性干扰了训练过程中的梯度计算，降低了特征金字塔的有效性。（大目标的检测在某一层，小目标的检测在另一层，但是网络的多尺寸检测不会仅仅检测一个特定的区域，而是综合整幅图进行检测。在特征融合时，其它层很多无用的信息也会融合进来）。

在这里插入图片描述
方法：

Feature Resizing
Adaptive Fusion

Consistency Property的解释：
在不失一般性的前提下，我们将重点关注YOLOv3中level 1 x1 中未缩放特征图在某一位置(i, j)处的梯度。根据链式法则，梯度计算为:（来源: https://blog.csdn.net/qq_41375609/article/details/105814812）
在这里插入图片描述

根据热力图分析：
如图所示，在COCOval-2017上可视化检测结果，以及在每个级别学习的权重标量图。我们放大了红框中3级的热图，以获得更好的可视化效果。
在这里插入图片描述
所有的三只斑马都是由level 1的融合特征图预测出来的。这表明它们的中心区域由第1级的原始特征主导，从第2级和第3级中过滤掉了这些区域内调整大小的特征。这种过滤保证了这三头斑马在第2级和第3级的特征被视为背景，在训练中不会收到正梯度。对于ASFF，在第2级和第3级的融合过程中，第1级调整后的特征的中心区域也被过滤掉，第1级的原始特征在训练中不会收到负梯度。

在这里插入图片描述
所有的羊都由3级融合特征图进行预测。我们放大了红框中3级的热图，以获得更好的可视化效果。在融合中，第一级的特征保留在目标区域，因为它们包含更强的语义信息，而第3级的特征是围绕每个目标提取的，因为它们对定位更敏感。

在这里插入图片描述
可以注意到网球拍是由第1级融合特征图进行预测，但热图显示其中心区域的主要特征来自2级的调整后的特征。我们推测，虽然第一级的网球拍是通过启发式大小选择来预测的，但第二级的特征在检测网球拍时更具有辨别性，因为它们包含了更丰富的线条和形状线索。由于我们的ASFF模块，最终的特性可以从最优融合中自适应学习，这尤其有助于检测具有挑战性的目标。请在补充材料中看到更多的视觉效果。