《Libra R-CNN: Towards Balanced Learning for Object Detection》论文笔记

本文分析了目标检测网络训练中的不平衡问题,包括采样、特征利用和损失函数三个方面,并提出了解决方案:IoU平衡采样、平衡特征金字塔和平衡L1损失。通过这些改进,Libra RCNN在MSCOCO数据集上提高了性能。
摘要由CSDN通过智能技术生成

1. 概述

导读:这篇文章是对于检测网络训练过程中存在的问题进行了分析,分析明确指出检测网络在训练过程中会存在明显的不平衡问题,这里的不平衡问题大体分为3个层次:检测框采样机制层次、特征图层次、目标函数层次。对此,文章对于这些不同层次的不平衡问题进行了研究,并对每个层次的问题提出了对应的解决办法,这也是文章对应的创新点,它们分别是IoU-balanced sampling、balanced feature Pyramid以及balanced L1 loss。对于改进之后的检测器取名为Libra RCNN,其在MSCOCO数据集上相比带FPN的Faster RCNN以及RetinaNet分别提升了2.5与2个点的mAP。对应的代码已经merge到了mmdetection中了。

对于一个目标检测器训练其训练结果良好与否(充分发挥检测器的性能)有三个关键方面:

  • 1)检测器对于检测框的选择是否具有代表性;
  • 2)检测器从输入图像抽取出来的特征是否被完全利用;
  • 3)检测器设计的损失函数是否最最优的;

以上的3点也是文章中进行分析的,也给出了对应的解决方法。其中对于上面提到的三个问题,可以对其进行简要的分析。

区域采样层次的不平衡
在检测其中困难样本是对提升检测器的性能极具价值的,但是在传统的随机采样过程中会导致采样集合中的简单样本占据大多数,如下图所示:
在这里插入图片描述
对应的解决办法有OHEM与Focal Loss。首先对于OHEM其可以选择出按照检测框的loss选择出困难样本,但是这样的代价是较大的计算量与内存占用问题,而且这个方法对噪声并不鲁棒;Focal Loss在一阶段检测方法中被证明是很有效的,但是在两阶段的检测方法中收效是很小的,这是由于在RPN阶段就滤除掉了很多的负样本。
特征层次上的不平衡
为了对不同尺度的目标提供更好的适配,往往在检测网络中引入FPN类型的网络结构,实际也是证明将高低层次的信息互补会带来检测性能的提升。但是这些信息是被有效使用了么?对此文章进一步提升了对应部分的特征表达,提出了balanced Pyramid。
损失函数层次上的不平衡
检测器会存在两部分的损失:分类和边界框回归,一般这两部分的损失是如下图中的分布:
在这里插入图片描述
这样的分布自然是不对等的,文章对此进行了研究,对检测框的损失函数在smooth L1的基础上进行调整得到balanced L1损失函数。

2. 方法

2.1 网络结构

文章的网络结构见下图所示:
在这里插入图片描述
对应的三处改进在下面的内容中分开进行说明。

2.2 IoU balanced sampling

在下图中展示了不同采样方法中不同IoU框的分布情况:
在这里插入图片描述
蓝色的条是随机采样的结果,由于原始采样空间中IoU低的占了大部分,自然随机采样的结果其也是占了绝大部分(70%)。在使用OHEM(橘黄色的条)之后样本的分布变化有了明显变化,大于0.05的框占到了60%,但是OHEM带来的问题也在前面分析过了,对此文章提出了IoU-Balanced Sampling的采样方法,这个方法更加简洁有效。

在随机采样过程中对于需要在数量为 M M M的集合中选择 N N N个困难样本,这每个困难样本被选择到的概率就是:
p = N M p=\frac{N}{M} p=MN
而现在文章对此进行了改进,将原始的采样集合划分为 K K K个区间,每个区间的候选样本数量为 M k M_k Mk,还是假设总的采样数目不变,则采样的概率就变成了:

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值