Towards Accurate One-Stage Object Detection with AP-Loss

摘要

单阶段目标检测器是通过同时优化分类损失和定位损失来训练的

由于anchor的数量很多,存在前景目标和背景目标不平衡的问题

本文提出了一种新的框架来缓和上述不平衡问题,即使用排序方法来代替分类任务,并且使用 Average-Precision loss(AP-loss)来完成排序问题。

因为 AP-loss 是不可微且非凸的,AP-loss 不能直接被优化,故本文使用一种新的优化方法,可以将感知学习过程的误差驱动的更新机制和深度网络中的反向传播机制进行巧妙的结合。

1. 引言

目标检测需要从背景中定位并识别出目标,其面临的挑战是前景和背景数量极不平衡。

检测过程是一个多任务机制,需要用不同的损失函数来解决分类任务和定位任务。

分类任务主要是识别b-box中的目标的类别,定位任务主要是预测b-box的位置。

两阶段的检测器,首先生成确定数量的候选框,所有检测问题可以从这些候选框中直接解决。

单阶段的检测器,需要直接从大量的预定义的候选框中预测目标类别,大量的b-box会引起前景和背景的极度不平衡,使得分类任务难以进行。

已知,对于一个平凡解(无解),几乎所有的候选框都被预测为负标签,分类指标可能很高,而检测性能较差。如图1(a)所示。
在这里插入图片描述
为了解决单阶段目标检测的这种问题,很多不同的方法引入了新的分类损失,如 balanced loss[23]、Focal loss[15] 和 tailored training 方法(Online Hard Example Mining (OHEM))等。这些 losses 对每个 anchor box 都分别独立建模,在分类损失中,其尝试对前景样本和背景样本重新赋权值,来适应样本不平衡的情况,这些方法没有考虑不同 samples 之间的联系。设计的平衡权重是手工选取的超参数,并不能很好的适应于不同类型的数据集。

本文认为,分类任务和检测任务之间的鸿沟阻碍了单阶段目标检测器的性能提升,本文并未从分类损失函数的修正上着手,而是直接使用排序方法(ranking)来代替分类损失。其中,关联的 ranking loss 显式地对关系建模,并且对正样本和负样本的比例不敏感。

如图1(b)所示,本文使用 AP 作为本文目标损失,其本质上更符合目标检测的评价指标。

由于 AP- loss 是不可微且非凸的,所以标准的梯度下降方法无法训练,下面讨论三点:

1)在结构化的 SVM 模型中学习了基于 AP 的 loss,该 SVM 模型是线性模型,所以性能受限。
2)结构化的 hinge loss 用于优化 AP loss的上届,而不是直接优化 loss 本身
3)近似的梯度方法可以用于优化 AP-loss,但效率不高,且容易陷入局部最优。

综上,优化 AP-loss 仍然是一个开放性问题。

本文中,我们用 ranking task 来代替单阶段检测器的 classification task,故我们使用基于 ranking 的 loss(AP-loss)来解决类别不平衡的问题。

详细来讲,本文提出了一种新的基于误差的学习策略,来有效的优化基于 AP 的不可微的目标检测函数。

也就是说,给单阶段检测器的得分输出添加了一些额外的变换,来获得 AP- loss,包括线性变换(将 scores 变换成成对的偏差),之后利用非线性且不可微的“激活函数”将成对偏差变换成 AP-loss 的主要内容,最后就可以通过将原始 term 和 label vector 进行点乘来获得 AP-loss。

受感知学习方法的启发,我们使用误差驱动的学习方式,来直接通过不可微的激活函数传递更新的信号。

不同于梯度方法,我们的学习机制给每个变量的误差一个更新信号的比率,之后使用反向传播来传递权值更新信号。

本文从理论和实际上都证明了提出的优化方法不会出现不可微可非凸的情况,本文主要贡献如下:

  • 提出了新的框架来解决分类样本正负不均衡的问题
  • 提出了误差驱动的学习机制,可以有效地优化不可微且非凸的基于 AP 的目标函数
  • 通过实验验证,本文方法相比于使用 classification loss 的方法效果更好

2. 相关工作

单阶段检测器:目标检测中,单阶段方法可以比两阶段方法更简单且更高效。

众所周知,单阶段目标检测器的优良效果得益于密集的anchors,但这会导致前景和背景目标的不平衡,为了解决这个问题,OHEM [18, 31] 和 Focal Loss [15] 被用来降低简单样本的权重,然而,该问题仍然没有得到有效的解决。

首先,手选超参数难以泛化到其他数据集
其次,anchors 之间的关系没有很好的建模

用于目标检测的 AP loss:

AP 被当做评价指标,但由于其不可微和非凸性,难以用作优化函数,本文的方法有四个特点:

1)本文方法可以被用于任何可微线性或可微非线性模型,如神经网络,其他的那些方法,如[37,19] 仅仅可以在线性 SVM 模型中起作用。
2)本文方法直接优化 AP- loss,[20]会导致 loss 出现 gap
3)本文方法不是近似的梯度,且不受 [34,9] 中的目标函数非凸性的影响
4)本文方法可以端到端的训练检测器

感知学习方法:

本文优化准则的核心是“误差驱动更新”,是感知学习方法的泛化版本,有助于克服不可微目标函数的困难。

感知器是使用阶跃函数作为激活函数的简单的人工神经元,感知学习方法是由Frank Rosenblatt [26]最初提出的,因为阶跃函数是不可微的,其不适合于使用梯度更新准则,但该方法也没有使用类似于交叉熵损失函数的方法来代替优化函数,而是使用“误差驱动更新”方法来更新权值。

当训练数据是线性可分的时,该方法能够保证在有限次数内收敛。

3. 方法

我们主要是使用基于 ranking task 的 AP-loss 来代替 classification task。

图2展示了本文方法的两个主要结构:ranking 过程 + 误差驱动更新准则
在这里插入图片描述

3.1 Ranking Task 和 AP-loss

3.1.1 Ranking Task

传统单阶段检测器:

给定输入图像 I I I II I IIII2<

### 回答1: Faster R-CNN是一种基于区域建议网络(Region Proposal Networks,RPN)的物体检测算法,旨在实现实时物体检测。它通过预测每个区域是否含有物体来生成候选框,并使用卷积神经网络(CNN)来确定候选框中的物体类别。Faster R-CNN在提高检测精度的同时,也显著提高了检测速度。 ### 回答2: 在计算机视觉领域中,目标检测一直是热门研究的方向之一。近年来,基于深度学习的目标检测方法已经取得了显著的进展,并且在许多实际应用中得到了广泛的应用。其中,Faster R-CNN 是一种基于区域建议网络(Region Proposal Networks,RPN)的目标检测方法,在检测准确率和速度之间取得了很好的平衡,能够实现实时目标检测。 Faster R-CNN 的基本框架由两个模块组成:区域建议网络(RPN)和检测模块。RPN 主要负责生成候选目标框,而检测模块则利用这些候选框完成目标检测任务。具体来说,RPN 首先在原始图像上以多个尺度的滑动窗口为基础,使用卷积网络获取特征图。然后,在特征图上应用一个小型网络来预测每个位置是否存在目标,以及每个位置的目标边界框的坐标偏移量。最终,RPN 根据预测得分和位置偏移量来选择一部分具有潜在对象的区域,然后将这些区域作为候选框送入检测模块。 检测模块的主要任务是使用候选框来检测图像中的目标类别和位置。具体来说,该模块首先通过将每个候选框映射回原始图像并使用 RoI Pooling 算法来获取固定大小的特征向量。然后,使用全连接神经网络对这些特征向量进行分类和回归,以获得每个框的目标类别和精确位置。 相比于传统的目标检测方法,Faster R-CNN 具有以下优点:首先,通过使用 RPN 可以自动生成候选框,避免了手动设计和选择的过程;其次,通过共享卷积网络可以大大减少计算量,提高效率;最后,Faster R-CNN 在准确率和速度之间取得了很好的平衡,可以实现实时目标检测。 总之,Faster R-CNN 是一种高效、准确的目标检测方法,是深度学习在计算机视觉领域中的重要应用之一。在未来,随着计算机视觉技术的进一步发展,Faster R-CNN 这类基于深度学习的目标检测方法将会得到更广泛的应用。 ### 回答3: Faster R-CNN是一种结合了深度学习和传统目标检测算法的新型目标检测方法,旨在提高目标检测速度和准确率。Faster R-CNN采用了Region Proposal Network(RPN)来生成候选区域,并通过R-CNN网络对候选区域进行分类和定位。 RPN是一种全卷积神经网络,用于在图像中生成潜在的候选区域。RPN通常在卷积特征图上滑动,对每个位置预测k个候选区域和其对应的置信度得分。这样,对于输入图像,在不同大小和宽高比的Anchor上预测候选框,可以在计算上更有效率。 R-CNN网络利用卷积特征图作为输入,对RPN生成的候选区域进行分类和精确定位。与以前的目标检测方法相比,Faster R-CNN使用了共享卷积特征,使得整个检测网络可以端到端地进行训练和优化,缩短了训练时间,同时也更便于理解和改进。 Faster R-CNN不仅具有较高的准确性,还具有较快的检测速度。在各种基准测试中,Faster R-CNN与其他目标检测算法相比,都取得了优异的性能表现。总之,Faster R-CNN将目标检测引入了一个新的阶段,为实时目标检测提供了一个良好的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值