中科院一区顶刊 | BACL：长尾目标检测统一框架，提升16.1 AP！

最新推荐文章于 2025-01-11 07:40:31 发布

自动驾驶之心

最新推荐文章于 2025-01-11 07:40:31 发布

阅读量574

点赞数

文章标签：目标检测人工智能计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247558922&idx=4&sn=fdd5021e21eb2c73b652eb0e2f998bb2&chksm=ceb9cac3f9ce43d5c29cb8ef21d74b26a4802eb0288e557ee995ebbb58aeb913740357136b80&scene=126&sessionid=0

版权

作者 | 派派星编辑 | CVHub

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【目标检测】技术交流群

后台回复【2D检测综述】获取鱼眼检测、实时检测、通用2D检测等近5年内所有综述！

本文只做学术分享，如有侵权，联系删文

导读

TL;DR: 本文针对长尾物体检测问题提出了一种新颖的解决方案，即 BACL 框架。通过前景分类平衡损失和动态特征幻觉模块，BACL 能够有效地解决长尾分布下的分类偏见问题，并显著提高了检测性能。这一工作对于现实世界中长尾分布的物体检测具有实际意义和应用前景。

问题陈述：众所周知，传统的检测器在处理长尾数据（类别不均衡）时表现下降，因为它们倾向于大多数头部类别。本文提出，这一学习偏见源于两个因素：

前景类别分布的不平衡竞争
尾部类别样本多样性的缺乏

LVIS contains visually similar categories distributed in both the head and long tail (bicycle vs. tricycle).

从图中可以看出，由于其区分能力有限，传统方法经常将三轮车错误分类为自行车。而本文提出的 BACL 专注于这些混杂类别，自适应地提升它们对损失公式的贡献。同时，BACL 能够综合多种特征来增强尾部类别的表示，从而帮助检测器在所有类别上实现更平衡的状态。

解决方案：为此，作者引入了一个统一框架Balanced Classification, BACL，引入了一对长期和短期指标来实时监控分类器的学习状态，通过动态的方法来改善类别分布的差异和样本多样性，从而进行偏见校准。具体来说，提出了两个组件：

前景分类平衡损失：Foreground Classification Balance Loss, FCBL通过成对的类别感知边距和自动调整的权重项来减轻头部类别的支配地位，关注难以区分的类别
动态特征幻觉模块：Dynamic Feature Hallucination module, FHM通过合成幻觉样本来扩展尾部类别在特征空间中的表示，从而引入额外的数据变化，以扩展尾部类别的特征空间表示。

最终，BACL通过这两个组件的协同作用消除了分类偏见，纠正了由类别分布差异引起的不平等，并增强了样本多样性。

实验结果：BACL在具有挑战性的LVIS基准测试上实现了新的最先进水平，超过了标准的Faster R-CNN，整体AP提高了5.8%，尾部类别的 AP 提高了 16.1% 以及常见类别提升 7.0% AP。

方法

本文提出的方法部分是针对长尾目标检测问题的解决方案。长尾分布是指少数类别占据了大部分样本，而大部分类别只占据了少数样本。这种分布对于深度学习模型的训练是一个巨大挑战，特别是对于目标检测任务中的尾部（少数）类别。

如上所述，本文针对长尾目标检测提出了一个全新的框架。首先，在表示学习阶段，通过一系列创新的技术，如Sigmoid分类器、Copy-Paste增强等，获取了更鲁棒的特征表示。然后，在分类器学习阶段，通过引入长短时指标对来校准分类偏差，从而使模型更加关注尾部类别的检测。这种细致入微的方法有助于改善长尾分布下尾部类别的检测性能，是一个对现实世界场景中的长尾分布问题有益的解决方案。下面，笔者将介绍平衡分类框架的核心内容。

表示学习阶段

Sigmoid-based Classifier with an Objectness Branch: 本文主要采用基于Sigmoid的分类器与目标分支，不使用任何样本平衡技术调整分布。
Leverage the Simple Copy-Paste Augmentation: 通过替换传统的多尺度训练策略，转而采用Copy-Paste增强策略，创建更具挑战性的训练样本，从而获得更好的特征表示。
Other Feasible Attempts: 通过大量实验，作者观察到减小权重衰减系数可以略微提高表示学习。此外，通过将 NMS 操作后保留的提议数量从 1000 增加到 2000，提高了前景提议的数量，有助于 RoI 特征提取器的收敛。

长-短时指标对

为了有助于在分类器学习阶段校准分类偏差，引入了一对互补的长期和短期指标。这些指标有助于反映分类器的学习状态，特别是对于不同前景类别的倾向和每个类别的分类正确性。

长期指标: 包括静态统计、一阶动态统计和二阶动态统计，能够捕捉前景类别之间的优势和分类倾向。
短期指标: 用于评估分类结果的正确性，特别是关注具有挑战性的类别。

这些长短时指标共同构成了该方法的基础，克服了先前工作仅关注一个方面的缺点。后面我们重点介绍下导读部分提出的两个方法。

前景分类平衡损失

FCBL 的构建是为了解决长尾分布场景中多个前景类别之间普遍存在的不平等竞争问题。此损失函数专门应用于前景提议，背景提议的损失则由另一个方程计算。首先看下定义：

此处，FCBL 主要引入了一个适应性类别感知边缘（adaptive class-aware margin）在任何一对前景类别之间，以改善一个类别对另一个类别的支配。该边缘与相应长期指标的比率成对数比例：

这里控制边缘的范围，而是长期指标的统一表达形式，该适应性边缘具有以下特点：

如果真实类别强于类别，边缘将为负，。这使分类器能够为类别分配更高的概率；
相反，如果条件颠倒，将为正，这个正边缘鼓励分类器通过更大的抑制梯度降低强类别的置信度。

其次，自然数据和长尾数据集通常具有大的词汇集，这增加了训练分类器的难度。因此，FCBL 集成了一个自动调整的权重项，定义如下：

这个自动调整的权重项的引入旨在优先考虑混淆类别，同时忽略良好分类的类别。简单来说，FCBL 通过引入适应性类别感知边缘和自动调整的权重项，有效地解决了不同前景类别之间不平等的竞争问题。适应性边缘帮助分类器感知类别差异并动态调整抑制梯度的幅度。自动调整的权重项有助于区分混淆类别和良好分类的类别。这两个组件共同使 FCBL 能够在长尾分布场景中改善前景类别之间的不平等竞争，从而提高了分类器的泛化能力。

特征幻觉模块

FHM 旨在解决长尾类别下的代表性不足问题。虽然 FCBL 可以解决前景类别之间的不平等竞争问题，但它无法解决尾部类别的样本稀缺问题。例如，某些类别可能只有一个训练样本，这极大地限制了分类器对该类别的判别能力。为了解决这一问题，FHM 通过合成幻觉特征来增强特征空间的表示，尤其是对尾部类别，从而增强数据多样性。下面是FHM的关键组成部分：

区域提议生成

FHM 首先实时捕捉每个类别的特征分布，然后根据长期指标的指导为选定的类别生成训练特征。具体来说，它使用一个非可学习的边界框生成器生成与真实边界框有大量重叠的区域提议。与 RPN 不同，边界框生成器使用坐标操作随机转换图像中的真实边界框为正提议。

在线特征分布

接下来，RoIAlign 层和 RoI 特征提取器将这些提议编码为 RoI 特征，以收集在线特征分布，包括原型和方差。FHM 为出现在中的每个类别计算特征的均值和方差，然后使用指数移动平均函数更改相应的原型和方差。

尾部类别突出

最后，FHM 通过为每个类别分配一个与长期指标成反比的采样概率来确保尾部类别突出：

使用上述采样概率，FHM 随机选择个类别并通过不断更新的特征分布通过重参数化技巧为每个类别生成个幻觉特征：

总的来说，FHM 通过引入新的幻觉特征来动态增强数据多样性，特别是对于尾部类别，从而缓解了代表性不足的问题。通过捕捉每个类别的特征分布，并基于长期指标的指导合成幻觉特征，FHM 增强了尾部类别在特征空间中的表示。这一直观而有效的方法不仅增加了样本数量，还增加了样本之间的变化，从而有助于进一步改进尾部类别的分类性能。

算法伪代码

实验

简短分析下。BACL 框架在 LVIS 数据集的两个版本(LVIS v0.5 & LVIS v1.0)上表现出色，与当前最先进的方法相比取得了显著的优势。特别是在使用ResNet-50-FPN和ResNet-101-FPN骨干时，BACL在总体 AP 方面均取得了优异成绩。

稀有类别检测：BACL 在稀有类别的检测上特别出色，不仅超过了端到端训练方法，还在解耦训练方法中实现了20%以上的AP。
常见类别检测：BACL 不仅在稀有类别上表现优异，还在常见类别上实现了明显的提升。
不同骨干结构的适应性：无论是较小的 ResNet-50-FPN 还是较大的 ResNet-101-FPN 骨干，BACL 都展示了卓越的性能，证明了其广泛的适用性和灵活性。

实际应用的可行性：BACL 的优势不仅限于实验设置，还在实际场景中展现出极高的实用性，表现与传统的交叉熵损失相当。

综上所述，BACL 通过增强样本多样性，在稀有和常见类别的检测上均取得了显著的改进，展示了其作为一种强大的、灵活的、实际可用的目标检测方法的潜力。

应用到下游任务的表现也还不错。

总结

今天为大家介绍了BACL，一个针对长尾目标检测任务的统一框架。通过采用分而治之的策略，BACL 引入了 FCBL 来减轻前景类别间的不平等竞争，以及 FHM 来增强尾部类别的多样性。大量实验表明，BACL 能够在不同的骨干网络和架构下，为检测器提供更均衡和准确的分类分支。

然而，BACL 是基于解耦训练流水线设计的，这限制了在分类器学习阶段对特征提取器的改进。未来的工作可能会弥补这一缺点，并整合更先进的指标和方法以增加样本差异，进一步改进。

此外，尽管 BACL 在常见类别的表现上可能略逊一筹，但其在稀有类别的表现卓越，并在不同大小的骨干网络上均取得优异成绩，体现了其广泛的适应性和灵活性。

总的来说，BACL 作为一种创新的解决方案，在平衡长尾分布中的类别表示、增强样本多样性和提高检测准确性方面取得了显著的进展。我们相信，经过针对特定任务的修改，所提出的 BACL 还可以应用于其他长尾识别任务。

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）