论文笔记:Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels

这是中科院计算所的一篇讨论大尺度目标检测的论文,主要解决多标签,类别不均衡的问题。论文地址
在过去的几年里,目标检测领域取得很大的进步。Pascal VOC、MS COCO等具有高质量标注的通用目标检测数据集极大地推动了OD的发展。然而,这些数据集在今天看来是相当小的,并开始在一定程度上限制OD的发展。人们更多关注于数据集上的原子问题,而不是在更困难的场景中研究OD。
Open Image标注过程是在深度学习的帮助下完成的,候选标签由模型生成并由人类验证。由于模型的不确定性和人类个体的知识有限性,这不可避免地削弱了标签的质量,导致的主要问题有:

  1. 大多数object可能包含一个叶标签和所有对应的父标签,但标注只有父类。
  2. 一些相似类在训练集和验证集相关。

Open Image 的类别图如下:
在这里插入图片描述

摘要

Open Image采集和标注是半自动的,数据量大,存在标签相关问题。物体显式或隐式含有多个标签,标签分布不均衡。
作者提出了并行softmax处理目标检测的多标签问题,提出soft-sampling,用混合训练scheduler来解决标签的分布不平衡。在Open Image的测试集达到60.9mAP。

相关工作

目标检测阶段

Wu的论文Soft sampling for robust object detection,提出软盒采样方法。

多标签分类

  1. 一种简单直观的方法是将多标签分类问题转化为多个二值分类问题并融合结果,但这忽略了标签之间的关系。
  2. 利用深度学习嵌入标签间的依赖关系,提高多标签识别的性能。 建立图结构来计算标签的依赖关系。
  3. 利用CNN-RNN框架将标签嵌入到潜在空间中,获取标签之间的相关性。

标签不均衡

  1. 通过基于数据的重采样或者基于Loss的策略处理长尾标签分布。
  2. 采用类感知抽样,对于不同的类,每个小批次的填充都尽可能统一。
  3. 根据标签的分布为每个图像计算复制因子,并按规定的次数复制图像。

方法

在传统方案中,训练时每个box只分配一个标签,忽略了其他ground truth。如果作者在训练时选取m个ground truth分配到K个box,优化值会指向更低的方向。

  • 训练阶段

并行softmax的loss
在这里插入图片描述

在推理过程中,多标签目标检测的影响也很突出。与传统的多标签识别任务不同,目标检测的评价指标是mAP。对于每个类别,首先采集所有图像的检测结果,按分数进行排序,形成P-R曲线,并将平均区域定义为mAP。这样,box score的绝对值就很重要了,因为它可能会影响预测box在整个数据集中的排名。
所以有
在这里插入图片描述
即使有soft-balance方法引入新的超参数来调整平衡因子,仍然有许多频繁类别的样本没有被抽样。
因此,作者提出一种混合训练scheduler方法来进一步缓解这一问题。
首先采用传统的方法对检测器进行训练,即不进行替换,对训练图像进行连续采样,其等效采样概率为 P o P_o Po。然后使用soft-balance策略对模型进行微调,使其覆盖样本较少的类别。该混合训练模式利用了预训练模型对Open Image本身而不是ImageNet进行目标检测的有效性。它保证了训练时所有的图像都被看到,使模型具有较好的泛化能力。

Some details

带有FPN的ResNet-50骨干来训练detector。对于网络配置,遵循Detectron中提到的设置。作者使用动量0.9的SGD和重量衰减0.0001来优化参数。初始学习率设置为0.00125 batch size,然后对一个共7个epoch的scheduler在4和6个epoch时降低10倍。输入图像被缩放,短边的长度为800,长边的长度被限制为1333。采用水平翻转作为augment,采用同步BN加速收敛。

结果

模型在mini-train上训练,在mini-val上评估。

  • 不同损失函数的比较方法

  • 并行softmax在测试集的有效性

在这里插入图片描述

  • 不同采样方法的比较
    在这里插入图片描述
    Non-balance训练只能达到38.16 mAP。[10]只是对所有类别数据进行均匀随机抽样,在很大程度上弥补了数据不平衡问题,使性能提高到55.45。[6]用于重新加权分类损失,以协调不同类别的梯度贡献。
  • λ \lambda λ对soft-balance的影响
    在这里插入图片描述

可以看出, λ = 0.7 \lambda=0.7 λ=0.7时,soft-balance达到最优性能。

soft-balance的 λ \lambda λ被设置为0.7。非平衡I14表示采用ImageNet,pretrain的非平衡策略训练的epoch 14模型。非平衡S20是用非平衡策略从零开始训练的epoch 20模型。

  • 模型在full-train训练,在full-val评估的结果
    在这里插入图片描述
  • bells和whistles on Open Images公开测试挑战集的结果
    在这里插入图片描述

作者训练了一个ResNeXt-152 FPN,以多尺度训练和测试为基线,得到了53.88 mAP。在class-aware平衡之后,性能提升到57.56。在并行softmax的帮助下,模型实现了58.60 mAP。采用soft balance算法和混合训练scheduler算法可以提高1.26和1.04mAP。

结论

本文研究了大尺度目标检测数据集中的多标签问题和标签分布不平衡问题,并给出了一种简单而有效的解决方案。在训练和测试阶段,作者提出了一个并行的softmax函数来处理显式和隐式多标记问题。结合混合训练scheduler算法,可以有效地解决标签分布极不平衡的问题。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值