介绍
摘要
摘要 - 视觉特征金字塔在各种应用中展示了其在效率和有效性上的优势。然而,现有方法过分集中于层间特征交互,却忽略了同层特征调控,这在实践中被证明是有益的。尽管一些方法尝试借助注意力机制或视觉变换器(Vision Transformer)学习一个紧凑的同层特征表示,但它们忽略了对于密集预测任务而言重要的被遗漏的角落区域。为了解决这个问题,在本文中,我们提出了一个用于目标检测的集中化特征金字塔(CFP),它基于全局显式的集中特征调控。具体来说,我们首先提出了一个空间显式的视觉中心方案,其中一个轻量级的多层感知机(MLP)被用来捕捉全局长距离依赖性,而一个并行的可学习视觉中心机制被用来捕捉输入图像的局部角落区域。基于此,我们接着提出了一个自上而下的通用特征金字塔的全局集中调控方式,其中从最深的同层特征获得的显式视觉中心信息被用来调节前端浅层特征。与现有的特征金字塔相比,CFP不仅能够捕捉全局长距离依赖性,而且还能高效地获得一个全面且具有区分度的特征表示。在具有挑战性的MS-COCO数据集上的实验结果验证了我们提出的CFP在最先进的YOLOv5和YOLOX目标检测基线上能够实现一致的性能提升。
创新点
中心化特征金字塔(CFP)的创新点主要包括:
-
空间显式视觉中心方案:CFP首次提出了一种全新的空间显式视觉中心(EVCÿ