论文题目: 《Learning Spatial Fusion for Single-Shot Object Detection》
代码:https://github.com/ruinmessi/ASFF
ASFF相当于空间注意力。
解决的问题: 不同尺度特征之间的不一致性。
贡献:
本文提出了一种新的基于数据驱动的金字塔特征融合策略,称为自适应空间特征融合(ASFF),它通过学习权重参数的方式将不同层的特征融合到一起。它学习了空间过滤冲突信息的方法来抑制不一致性,从而提高了特征的尺度不变性,并且推理成本小。
单发检测器特征金字塔的不一致性:
具体来说,在使用特征金字塔检测对象时,采用启发式引导特征选择:大实例通常与上特征图相关联,小实例与下特征图相关联。当在某一层次的特征图中分配一个对象并将其作为正的对象时,其他层次的特征图中对应的区域被视为背景。因此,当一幅图像同时包含小目标和大目标时,不同层次特征之间的冲突往往占据特征金字塔的主要部分。这种不一致性干扰了训练过程中的梯度计算,降低了特征金字塔的有效性。(大目标的检测在某一层,小目标的检测在另一层,但是网络的多尺寸检测不会仅仅检测一个特定的区域,而是综合整幅图进行检测。在特征融合时,其它层很多无用的信息也会融合进来)。
方法:
- Feature Resizing
- Adaptive Fusion
Consistency Property的解释:
在不失一般性的前提下,我们将重点关注YOLOv3中level 1 x1 中未缩放特征图在某一位置(i, j)处的梯度。根据链式法则,梯度计算为:(来源: https://blog.csdn.net/qq_41375609/article/details/105814812)
根据热力图分析:
如图所示,在COCOval-2017上可视化检测结果,以及在每个级别学习的权重标量图。我们放大了红框中3级的热图,以获得更好的可视化效果。
所有的三只斑马都是由level 1的融合特征图预测出来的。这表明它们的中心区域由第1级的原始特征主导,从第2级和第3级中过滤掉了这些区域内调整大小的特征。这种过滤保证了这三头斑马在第2级和第3级的特征被视为背景,在训练中不会收到正梯度。对于ASFF,在第2级和第3级的融合过程中,第1级调整后的特征的中心区域也被过滤掉,第1级的原始特征在训练中不会收到负梯度。
所有的羊都由3级融合特征图进行预测。我们放大了红框中3级的热图,以获得更好的可视化效果。在融合中,第一级的特征保留在目标区域,因为它们包含更强的语义信息,而第3级的特征是围绕每个目标提取的,因为它们对定位更敏感。
可以注意到网球拍是由第1级融合特征图进行预测,但热图显示其中心区域的主要特征来自2级的调整后的特征。我们推测,虽然第一级的网球拍是通过启发式大小选择来预测的,但第二级的特征在检测网球拍时更具有辨别性,因为它们包含了更丰富的线条和形状线索。由于我们的ASFF模块,最终的特性可以从最优融合中自适应学习,这尤其有助于检测具有挑战性的目标。请在补充材料中看到更多的视觉效果。
实验结果:
ASFF算法的发展:
《Employing deep learning for automatic river bridge detection from SAR images based on Adaptively effective feature fusion 》