CVPR2020 Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax

最新推荐文章于 2024-04-26 11:50:23 发布

Laughing-q

最新推荐文章于 2024-04-26 11:50:23 发布

阅读量745

点赞数 2

分类专栏：论文阅读文章标签：计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/Q1u1NG/article/details/109644637

版权

论文阅读专栏收录该内容

29 篇文章 10 订阅

订阅专栏

CVPR2020 Overcoming Classifier Imbalance for Long-tail Object Detectionwith Balanced Group Softmax论文翻译

论文地址：
Overcoming Classifier Imbalance for Long-tail Object Detectionwith Balanced Group Softmax

摘要

利用基于深度学习的模型解决长尾大词汇量目标检测是一项具有挑战性和高要求的任务，但目前研究还不足。在本研究中，我们首次系统地分析了最先进的模型在长尾分布前的不足之处。我们发现，现有的检测方法在数据集严重倾斜时无法对few-shot类进行建模，这将导致分类器在参数量级上不平衡。由于检测和分类的本质区别，将长尾分类模型直接应用于检测框架不能解决这一问题。在这项工作中，我们提出了一种新的平衡组softmax (BAGS)模块，通过分组训练来平衡检测框架内的分类器。它隐式地调制头类和尾类的训练过程，并确保它们都得到了充分的训练，而不需要对尾类的实例进行任何额外的采样。
在最近的长尾大词汇量目标识别基准LVIS上的大量实验表明，我们提出的BAGS在目标检测和实例分割方面显著提高了带有各种骨架和框架的检测器的性能。它击败了从长尾图像分类转移的所有最先进的方法，并建立了新的最先进的技术。有关代码，请浏览https://github.com/FishYuLi/BalancedGroupSoftmax
在这里插入图片描述

1.介绍

目标检测[33,31,26,24,22,1]是计算机视觉中最基本、最具挑战性的任务之一。最近的进展主要是由人工平衡的大数据集驱动的，如PASCAL VOC[10]和COCO[25]。然而在现实中，对象类别的分布通常是长尾的[32]。有效的解决方案，使最先进的检测模型适应这种类不平衡分布是非常需要的，但仍然缺乏。最近，一个长尾大词汇量的目标识别数据集LVIS[15]的发布，极大地促进了更真实场景下的目标检测研究。
对于长尾对象检测，一个直接的解决方案是直接在长尾训练数据上训练一个完善的检测模型(例如Faster R-CNN[33])。然而，将为平衡数据集(例如COCO)设计的检测器调整为长尾数据集(例如LVIS)时，会观察到很大的性能下降，由于多重纠结因素，其原因仍不清楚。受[21]的启发，我们将检测框架中的表示模块和分类模块解耦，发现由于低概率类别被激活的机会很少，不同类别对应的提案分类器权重规范严重不平衡。通过我们的分析，这是造成长尾检测性能差的直接原因之一，其本质上是由数据不平衡引起的。 如图1所示，我们分别对COCO和LVIS上训练的模型的分类器权重规范按照训练集中的实例数进行排序。对于COCO来说，相对均衡的数据分布导致所有类别的权重规范相对均衡，除了背景类别(CID=0, CID用于类别ID)。对于LVIS而言，类别权重规范存在明显的不平衡性，且与训练实例数呈正相关。这种不平衡的分类器(w.r.t.他们的参数范数)会使low-shot的类别(尾类)的分类分数远远小于many-shot的类别(头类)的分类分数。在标准softmax之后，这种不平衡将进一步放大，因此分类器错误地压制预测为low-shot类别的提案。
分类器的不平衡根源于数据分布的不平衡，many-shot类别的分类器会看到更多和多样化的训练实例，从而导致占主导地位的量级。一个可以考虑的方案是使用长尾分类的解决方案来克服这个问题，包括重采样训练实例来平衡分布[16,8,34,27]，以及在类别级[6,2,19]或实例级[24,35]重加权分类损失。基于重采样的解决方案适用于检测框架，但可能会增加训练时间和尾类过拟合的风险。不幸的是，基于重加权的方法对超参数选择非常敏感，由于难以处理特殊的背景类(一个极其many-shot的类别)，因此不适用于检测框架。我们通过实验发现这些方法都不能很好地解决长尾检测问题。
在本文中，为了解决分类器不平衡的问题，我们在检测框架的分类头中引入了一个简单而有效的平衡组softmax (BAGS)模块。我们提出将训练实例数目相近的目标类别放入同一组，并分别按组计算softmax交叉熵损失。单独处理具有不同实例数的类别可以有效缓解头类对尾类的支配。然而，由于缺乏针对每组训练的各种负样本，结果模型存在太多的误报。因此，BAGS进一步在每个组中添加一个类别others，并将背景类别作为一个单独的组引入，这样可以通过保持分类器的平衡来减轻头类对尾类的抑制，同时防止类别background和others的误报。
我们通过实验发现BAGS效果很好。各种框架包括Faster R-CNN[33],Cascade R-CNN[1],Mask R-CNN[17]和以ResNet50-FPN(18、23)和ResNeXt-101-x64x4d-FPN[40]为主干的[4]HTC 在长尾目标识别基准LVIS[15]尾类上的性能提高9%～19%, 整体mAP提升了约3% - 6%。
综上所述，本研究做出了以下贡献：

通过综合分析，我们揭示了现有模型不能很好地进行长尾检测的原因，即分类器不平衡，训练不均衡，从观察到的不平衡分类器权重规范可以看出。
我们提出了一个简单而有效的平衡组softmax模块来解决这个问题。它可以很容易地与目标检测和实例分割框架相结合，提高长尾识别的性能。
我们在最先进的长尾分类方法目标检测上进行了大量的评估。这样的基准测试不仅加深了我们对这些方法的理解，以及长尾检测的独特挑战，也为未来在这个方向上的研究提供了可靠和强大的基线。

2.相关工作

与均衡分布目标检测[12,33,1]和few-shot目标检测[20,3,41,11]相比，具有挑战性和实用性的长尾目标检测问题仍有待深入研究。虽然Ouyang et al.[29]提出了长尾目标检测的概念，但他们的工作重点是在ILSVRC DET数据集[7]上训练数据分布不平衡，而没有像LVIS[15]这样的尾类few-shot设置。[15]提出重复因素采样(RFS)作为基线。[39]通过另一个头部训练的ROI类平衡采样策略来校正尾部类别的分类分数，增强了RFS。下面我们首先回顾常规的目标检测方法，然后是长尾分类方法。
常规目标检测. 基于深度学习的目标检测框架分为anchor-based的和anchor-free的两种。Anchor-based方法[13,12,33,31,24]显式或隐式地提取单个区域的特征，从而将目标检测转化为提议分类，目前这方面的研究已取得很大进展。anchor-free方法侧重于检测对象的关键点，并通过正确组合检测到的关键点或者扩展关键点的表示构建最终的边框[22,9,43]。对于此类检测器，通过对关键点进行分类来实现提案分类。
这些流行的目标检测框架都使用softmax分类器进行建议分类或关键点分类。我们所提出的平衡组softmax模组只需替换原有的softmax分类器，就可以很容易地插入到主流检测器中。为了简单起见，我们主要用anchor-based的检测器Faster R-CNN[33]和Cascade R-CNN[1]以及它们相应的实例分割方法Mask R-CNN[17]和HTC[4]进行实验。
长尾分类. 长尾分类因其实际应用而受到越来越多的关注。目前的工作是利用数据重新采样、 cost-sensitive learning或其他技术。对于数据重采样方法，训练样本要么是过采样(为尾类添加训练样本副本)[16]，要么是欠采样(为头类删除训练样本)[8]，要么是类平衡采样[34,27]，这激励RFS[15] 。对于cost-sensitive learning，网络损失在类别级通过在不同类别上乘以不同的权值来扩大尾类训练样本的影响[6,2,19]，或者在实例级通过在不同训练样本上乘以不同的权值来进行更细粒度控制[24,35]。其他一些方法优化使用长尾数据训练的分类器，如Nearest Class Mean classifier(NCM)[28, 14]，τ-归一化分类器[21]。这些方法通常对超参数敏感，当转换到检测框架时，由于第1节中所述的分类和检测之间的固有差异，这些方法不能很好地执行。
因此，一种专门设计用于长尾目标检测的方法是可取的，我们的工作是第一次成功的尝试克服分类器不平衡，通过分组训练而不需要额外的尾类采样。

3.准备与分析

3.1 准备

我们首先以Faster R-CNN[33]为例回顾流行的two-stage对象检测框架。我们采用这种two-stage框架来发展和实施我们的想法。
骨干网络f_back以图像I为输入，生成特征映射F = f_back(I)。然后将特征映射传递给ROI-align[17]或ROI-pooling[12]，以产生K个建议，这些建议具有自己的特征F_k = ROIAlign(F, b_k),这里b_k表示提案k。然后，分类头f_head为每个提案提取一个d维特征h = f_head(F_k)。最后，一个FC层通过z = W h+b将h转移到(C + 1)-类别预测(C对象类加背景)，W ∈ R^d×(C+1)为分类器权重，其中每列wj∈R^d与一个具体类别j相关，b为偏置项。
训练时，在ground truth标签y {0,1}^C+1的情况下，利用softmax cross熵计算特定提案的损失：
在这里插入图片描述
这里z_j表示z的第i个元素，pj表示提案成为第j类实例的预测概率。

3.2 分析

当训练集服从长尾分布时，现有性能良好的检测模型往往不能识别尾类。在本节中，我们试图通过对其代表性的例子COCO和LVIS进行对比实验，来研究从平衡数据集到长尾数据集的性能下降背后的底层机制。
我们采用了一个R50- FPN主干的Faster R-CNN[12]模型，通过直接比较两个数据集的mAP，性能明显下降，从36.4%(COCO) 到 20.9%(LVIS)。尽管LVIS比COCO包含更多的类(1230 v.s. 80)存在不公平，但我们仍然可以得出一些有趣的观察结果。在头类上，LVIS模型取得了与COCO相当的结果。然而，当涉及到尾部类时，性能迅速下降到0。这种现象意味着当前的检测模型确实受到了数据不平衡的挑战。为了进一步研究数据不平衡是如何导致性能下降的，我们按照[21]将检测框架解耦到提案特征提取阶段和提案分类阶段。
具体来说，根据3.1节中的符号，我们将用于生成h的操作视为提案特征提取，以及Eqn.(2)中的最后FC层和softmax作为softmax分类器。然后，我们研究了训练实例数与分类器中权重范数 ||w_j||之间的相关性，结果可视化如图1所示，我们可以看到，对于COCO dataset，大多数类别包含10³ 10⁴个训练实例(至少10²个);所有前景类目的分类器权重规范也相对均衡(0.75-1.25)。相比之下，对于LVIS数据集，权值范数||w_j||与相应类别j中的训练实例数量高度相关；训练实例越多，权值越大。对于few-shot类别(尾类)，他们相应的权重规范非常的小，甚至接近0。基于这样的观察，我们可以预见，尾部类别的预测分数自然低于头部类别，并且尾部类别的提议区域在与softmax计算中的头部类别竞争后，将不太可能被选择。这解释了为什么当前的检测模型经常在尾类上失败。
为什么分类器权重与每类训练实例的数量相关联？为了回答这个问题，让我们进一步考察Faster R-CNN的训练过程。当选择head class j的提案作为训练样本时，zj应该被激活，而对其他类别的预测应该被抑制。由于头类的训练实例远多于尾类的训练实例(例如，在某些极端情况下10000 vs. 1)，尾类的分类器权值更有可能(频繁)被头类的分类器所抑制，导致训练后的权重规范不平衡。
因此，可以看到为什么重采样方法[15,39]能够在长尾实例分类和分割方面受益于尾类。它只是在训练过程中增加了尾类提议的采样频率，从而使不同类别的权值得到同等的激活或抑制，从而在一定程度上平衡了尾类和头类。此外，损失重加权方法[6,2,19,24,35]也可以以类似的方式起作用。重采样策略虽然能够缓解数据的不平衡，但实际上会引入新的风险，如尾类的过拟合和额外的计算开销。同时，损失重加权对每类损失重设计都很敏感，这些设计通常会因不同的框架、骨干和数据集而不同，这使得它很难部署到实际应用中。在检测问题中，基于重加权的方法不能很好地处理背景类。因此，我们提出了一种简单而有效的方法来平衡分类器的权重规范，而不需要进行繁重的超参数工程。

4.Balanced Group Softmax

我们的Balanced Group Softmax模块如图2所示。首先对其配方进行阐述，然后对设计细节进行说明。
在这里插入图片描述

4.1 分组softmax

如前所述，权重规范与训练样本数量之间的正相关会影响检测器的性能。为了解决这一问题，我们建议将类划分为几个互不相交的组，并单独执行softmax操作，使每个组内只有训练实例数量相近的类相互竞争。通过这种方式，在训练期间，包含不同数量实例的类可以彼此隔离。尾部分类器的权重不会被头部分类器大大抑制。
具体来说，我们将所有C类根据它们的训练实例数划分为N组，如果满足：
在这里插入图片描述

我们把j类赋给Gn组，其中N(j)是训练集中类别j的边框数量，s^l_n和s^h_n是确定n组最小和最大实例数的超参数。在本工作中，我们设置s^l_n+1=s^h_n，以确保组之间不存在重叠，每个类别只能分配给一个组。根据经验设置N和s^l_n，以确保每组中的类别包含相似的训练实例总数。在本文中，我们设置N = 4, s^l₁= 0, s^l₂ = 10, s^l₃ = 10², s^l₄ =10³, s^h₄ = +∞.
此外，我们手动将G0设置为只包含背景类别，因为它拥有最多的训练实例(通常比对象类别多10-100倍)。我们对G0采用sigmoid交叉熵损失，因为它只包含一个预测，对于其他组我们使用softmax交叉熵损失。选择softmax的原因是，softmax函数固有地具有抑制每个类从另一个类产生的能力，并且不太可能产生大量的误报。在训练过程中，对于一个真实标签 label c的提案b_k，会激活两组，分别是背景组G0和前景组Gn，其中c∈Gn。

4.2 通过"others"类别校准

然而，我们发现上述组softmax设计存在以下问题：在测试过程中，对于一个提案，由于其类别未知，所有组都将被用来预测。这样，每组至少有一个类别的预测得分会很高，很难决定我们应该采取哪一组预测，从而导致大量的false positives。为了解决这个问题，我们在每个组中添加了一个类别“others”，以校准组间的预测并抑制误报。此类别“others”包含当前组中不包含的类别，这些类别可以是其他组中的背景或前景类别。对于G0，其他类别也表示前景类。具体来说，对于真实标签c的提案b_k，新的预测z应为z∈R^(c +1)+(N+1)^。类别j的概率计算如下：
在这里插入图片描述
在每个组中真实标签应该重新映射，在不包括c类的组中，类别 others将被定义为ground-truth类，所以最终的损失函数是：

其中yⁿ和pⁿ表示Gn的标签和概率。

4.3 在组中平衡训练样本

在上述处理中，新增加的类别others将再次成为一个压倒性的离群值。为了平衡每组的训练样本数量，我们训练时只对一定数量的others提案进行采样，抽样比例由β控制。对于G0，由于背景提案很多，训练样本中的所有others都会被使用。对于{Gn | n∈R, 1≤n≤N}，从所有others实例中随机抽取m_n个others实例，其中m_n =β∑_i∈Gn N_batch(i)。β ∈ [0, +∞)是一个超参数，我么你在5.4节对其进行了消融实验来展示β的影响。通常，我们设置β= 8。N_batch(i)表示当前批处理中类别i的实例。
也就是说，在包含ground-truth类别的组中，others实例将基于小批量的K个建议按比例采样。如果一个组里没有正常类别激活，所有others实例也不会被激活。这个组就会被忽略。这样，每组都能保持平衡，false positives率低。加上others类别，比基线提高了2.7%。

4.4 推理

在推理过程中，我们首先用训练好的模型生成z，然后用Eqn.(4)对每一组应用softmax。除了G0，忽略所有others节点，所有类别的概率由原始类别id排序。G0中的p⁰₀可以被认为是前景提案的概率。最后，我们用p_j’ = p⁰₀ x pj对正态分类的所有概率进行重新调节。这个新的概率向量被送入NMS等后处理步骤，以产生最终的检测结果。应该注意的是，p’在技术上不是一个真正的概率向量，因为它的和不等于1。它起着原始概率向量的作用，通过选择最终的边框来引导模型。

5.实验

5.1数据集和设置

我们在最新的Large Vocabulary Instance Segmentation(LVIS)数据集[15]上进行了实验，该数据集包含1230个类别，包括边框和实例掩码注释。在目标检测实验中，我们只使用边框标注进行训练和评估。在探索BAGS推广到实例分割时，我们使用掩码注释。具体实施详情请参阅补充资料。
按照[39]，我们根据LVIS的训练实例数将验证集中的类别划分为4个bin，以便更清晰地评估模型在head和tail类上的性能。Bini包含有10^i-1到10ⁱ实例的类别。我们将前两个bin中的类别称为尾部类，将其他两个bin中的类别称为头部类。除了LVIS-api2提供的官方度量mAP，AP_r(稀有类的AP)， AP_c(常见类的AP)和AP_f(频繁类的AP)，我们还报告了不同bin上的AP。AP_i表示Bin_i类别的平均AP。

5.2LVIS的主要结果

我们将多种SOTA长尾分类方法迁移到Faster R-CNN框架中，包括尾类的微调、重复因子采样(RFS)[27]、类别损失重加权、Focal Loss[24]、NCM[21,36]和τ-归一化[21]。我们小心的调整他们的超参数来保证适合目标检测。具体实施细节见我们的补充资料。我们在表1中报告了它们的检测性能和提案分类精度。
在这里插入图片描述
初始baseline的表现如何？ 我们使用主干为ResNet-50-FPN的Faster R-CNN作为baseline(表中的model(1))，实现了20.98%的mAP，AP₁=0。由于其他类别的支配，基线模型遗漏了大多数尾类。考虑其他模型是由model(1)初始化并在另外12个epochs进一步调整的。为了确保改进不是来自较长的训练计划，我们训练model(1)另外12个epochs以进行公平的比较，就得到了model(2), 通过对比model(2)和model(1)，我们发现较长的训练时间提升了AP₂，但AP₁保持在0左右。也就是说，对于实例少于10的low-shot类别，较长的训练几乎无助于提高其表现。在尾部训练样本上微调model(1) (model(3))，仅AP₂显著增加，而AP₄降低了2.5%，AP₁仍为0。这说明当训练实例数量太少时，原有的softmax分类器不能很好地执行。
长尾分类方法有帮助吗？ 我们观察到**基于抽样的方法RFS(model(4))**提高了2.5%的整体mAP。尾类的AP得到了改进，而头类的AP则得到了维护。然而，RFS增加了1.7x的训练时间成本。我们也尝试用model(1)对模型进行初始化，得到model(5)。但是由于过拟合，mAP下降了0.8%。
对于cost sensitive learning方法，model(6)和(7)提升了性能，model(7)更好。这证实了在[21]中所观察到的解耦特征学习和分类器有益于长尾识别仍然适用于目标检测。对于Focal loss，我们直接在提案级应用sigmoid focal loss。值得注意的是，在提案分类方面，所有目标类(ACC1_、2、3、4)的准确性显著提高。但是，对于背景提案，ACC_bg从95.8%下降到0.16%，导致大量false positive和低AP。这一现象再次凸显了长尾检测与分类的区别，非常特殊的背景类需要慎重对待。
对于NCM，我们尝试使用classier之前的FC特征(model(10))和ROIalign提取的Conv特征(model(11))。然而，我们的观察是，NCM对于low-shot类的效果很好，但对于头类则不太好。此biao外，NCM可以提供一个很好的1- nearest-neighbour分类标签。但是为了检测，我们还需要整个概率向量是有意义的，这样就可以用同一类别上的不同提案的分数来评估提案的质量。
τ-归一化model(12) 与focal loss模型(8)面临类似的挑战。many-shot的背景类是非常主导的。虽然前景提案精度大大提高，但ACC_bg却大幅下降。因此，对于model(13)，归为背景的提案继承了原始模型的预测，而其他提案取τ-范数的结果。然而，这种改进是有限的。我们应该注意到AP₁和ACC₁在τ-norm之后仍然为0，但是AP₂和ACC₂得到了改善。
我们的方法执行得如何? 对于我们的模型，除了G0，我们将正常类别分成4组来进行分组softmax计算，s^l和s^h分别为(0,10)、(10,10²)、(10²,10³)、(10³，+∞)，且β= 8。我们的模型用model(1)初始化，分类FC层随机初始化，因为输出形状改变了。只有FC层被训练为另外12个轮次，所有其他参数都被冻结。我们的结果远远超过所有其他方法。AP₁增长11.3%，AP₂增长10.3%，而AP₃和AP₄几乎没有变化。这一结果验证了我们设计的平衡分组softmax模块的有效性。
将我们的方法推广到更强的模型. 为了进一步验证我们方法的泛化，我们将Faster R-CNN主干改为ResNeXt-101-64x4d[40]，结果如表2所示。在这个更强的主干上，我们的方法仍然提高了3.2%。然后，我们将我们的方法应用到SOTA的Cascade R-CNN[1]框架在3个阶段改变所有3个softmax分类器为我们的BAGS模块。整体mAP显著增加5.6%。我们的方法使用3 heads带来持续增益。

在这里插入图片描述

5.3 实例分割的结果

我们进一步评估我们的方法的有效性，例如分割模型，在LVIS上评估包括Mask R-CNN[17]和最新的HTC[4]。在这里HTC模型是由COCO stuff注释分割分支训练。结果如表3所示。首先，将我们的models(8)(10)(12)与其相应的baseline models(7)(9)(11)进行比较，边框和掩码的mAPs都有了很大的提升。我们的模型更适合尾部类，而头部类的APs略有下降。其次，在LVIS实例分割任务上，我们将我们的结果与SOTA的结果[39,15]进行比较。使用Mask R-CNN框架和ResNet-50-FPN主干，我们的model(8)比RFS(1)和Calib(4)至少高出1.8%。结合HTC框架和ResNeXt-101-FPN主干，我们的model(10)比Calib(5)好1.4%。通过ResNeXt-101-FPNDCN骨干和多尺度训练，我们的model(12)比Calib(6)好2.3%。我们的方法在边界框和掩码标准方面建立了新的SOTA。
在这里插入图片描述

5.4 模型分析

我们的方法可以平衡分类器吗？ 我们表1中的model(1)(4)(7)和我们的model(14)的分类器权重范数W可视化，如图3所示。RFS权重在尾类上明显增大，重加权方法抑制头类的权重，提高尾类的权重。对于我们的方法，由于我们将不同类别组之间的关系解耦，G1、G2和G3的权重几乎在同一水平上。虽然G4的权重仍然较小，但已经比原来的模型平衡得更好了。注意到我们模型的权值范数与每组训练实例数的相关性较小，说明这种解耦有利于网络训练。
在这里插入图片描述

背景和others贡献了多少？ 见表4。在基线model(0)下，将正常类别直接分组为4组，每组不添加背景G0等，得到(1)结果。对于model(1)，推理的时候，为了NMS，每组的分数分别传递给softmax，并直接进行拼接。尽管AP₁提高了5.7%，但在所有其他bin上的性能都显著下降。这是因为我们对FPs没有任何限制。对于单个提案，每个组中至少会有一个类别被激活，从而产生多个FPs。当我们加入G0(model(2))，并使用p⁰₀对常规类别的分值进行重调节时，我们比model(1)提高了1.9%，但仍比模型(0)差。对于model(3)，我们在每组中加入others类别，不使用G0，获得了2.7%的性能增益。
在这里插入图片描述
BAGS分了多少组？ 用G0进行重调节后，再提高2.2%(model(5))。如果我们把分组数量由4减少到2，展示为model(4)，整体mAP下降了0.6。但具体来说，需要注意的是AP₁变差了很多，而AP₄增加了一点。使用更多的组也没有帮助(model(6))。由于Bin₁的#ins对于N = 4来说太小，将Bin₁分成2个bin进一步减少了每组的#ins，导致对tails的训练严重不足。综上所述，在每一组中添加others类别是很重要的，使用专门训练的p⁰₀来抑制背景提议的效果比其他的要好。最后，将类别分组到bin中，解耦尾类和头类之间的关系，对尾类的学习有很大的帮助。
BAGS中β的影响. 在将others类别添加到所有组之后，我们需要对pothers类别的训练实例进行抽样。使用所有others的提议会导致每个小组的不平衡问题。因此，我们的策略是使用比率β对others样本进行抽样，使#ins others:#ins normal =β。如图4所示，随着β的增加，mAP不断增大，直到β= 8。如果我们在激活组中使用所有others的提案(在x轴中为n)，头部类别的表现会持续增加，而尾部类别的表现会大幅下降。如果我们不管是否有常规类别被激活(在x轴中为all)，训练所有others提案，mAP就会变得更糟。这证实了我们的观点，另一个不平衡的问题可能会使结果恶化。
在这里插入图片描述

5.5 COCO-LT的结果

进一步验证了我们方法的泛化能力，我们通过从coco数据集中采样，提出了一个长尾分布的数据集COCO-LT。我们在COCO-LT上得到了与LVIS相似的结果。我们的模型仍然在mAP上引入了超过2%的改进(Faster R-CNN +2.2%，Mask R-CNN边框+2.4%，Mask R-CNN mask+2.3%)，特别是在使用Faster R-CNN和Mask R-CNN框架时，尾类(边框从0.1%到13.0%)得到了很大的改进。请参考我们的补充资料，以建立数据集，数据细节，和完整的结果。

6.结论

在本文中，我们首先通过分析分类器的权重规范，揭示了长尾数据检测性能较差的原因是分类器由于对low-shot类的训练不足而变得不平衡。然后，我们研究了从长尾分类转移过来的多种实基线方法，但我们发现它们在解决检测任务的挑战方面是有限的。因此，我们提出了一种balanced group softmax模块来处理分类器的不平衡问题，该模块在不同的强骨干上对长尾检测和实例分割取得了明显更好的结果。

Laughing-q

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
CVPR2020 Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax

摘要论文地址利用基于深度学习的模型解决长尾大词汇量目标检测是一项具有挑战性和高要求的任务，但目前研究还不足。在本研究中，我们首次系统地分析了最先进的模型在长尾分布前的不足之处。我们发现，现有的检测方法在数据集严重倾斜时无法对few-shot类进行建模，这将导致分类器在参数量级上不平衡。...
复制链接

扫一扫