【论文学习】Gaussian Focal Loss

【论文学习】Gaussian Focal Loss: Learning Distribution Polarized Angle Prediction for Rotated Object Detection in Aerial Images

论文链接:https://ieeexplore.ieee.org/document/9776580
代码链接:https://github.com/WangJian981002/GF-CSL

摘要

随着航空数据的不断增加,航空图像中的物体检测已经引起了遥感界越来越多的关注。由于角度的周期性可能导致目标角度值的不一致,因此在使用定向边界框(OBBs)表示任意方向的物体时,困难在于准确预测每个目标的角度信息。为了解决这个问题,最近的工作提出将角度预测从回归问题执行到带有圆形平滑标签(CSL)的分类任务。然而,我们发现,目前适用于二进制软标签的损失函数需要近似每个位置的软标签值。当对所有负样本角度类别进行加总时,这些相对不重要的损失值会压倒目标角度类别,从而使网络无法预测精确的角度信息。在这篇文章中,我们提出了一个新的损失函数,作为基于分类的旋转检测器的一个更有效的替代品。通过在负样本位置上构建具有自适应高斯衰减的分类损失,我们的训练目标不仅可以避免不连续的角度边界,还可以使网络获得更精确的角度预测,在峰值处有更高的响应。此外,在我们的损失函数的基础上提出了一个长宽比感知因子,以增强模型在确定方形物体方向时的稳健性。在航空图像数据集DOTA、HRSC2016和UCAS-AOD上进行的大量实验证明了我们的方法的有效性和优越性。

一、前言

近年来,大量空间分辨率较高、内容较丰富的航空图像[1]-[3]的出现,促进了现代遥感技术的发展。航空图像中的物体检测已逐渐成为计算机视觉领域的一个热点[4]-[7]。受益于深度卷积神经网络(CNN),自然图像中的物体检测已经取得了巨大的成功。许多先进的检测器[8]-[14]已经被提出,以预测每个物体的水平边界框(HBB)。然而,航空图像的水平范式可能会受到一些限制,因为这些图像通常是从鸟瞰角度拍摄的。因此,物体可以密集地排列在各种方向上。简单地将HBB应用于这些物体会引入大量不相关的背景或导致目标之间的显著重叠。

为了解决上述问题,许多工作[15]-[21]采用了定向边界框(OBBs)来更紧凑地表示旋转的物体。一个常见的做法是为角度预测引入一个额外的回归分支。然而,由于角度的周期性,回归值的标签会在边界处不连续,导致损失值突然增加。这种现象会干扰网络对物体角度信息的学习,从而影响基于回归的旋转检测器的最终性能。为了解决不一致的问题,最新的工作[22]-[24]提出将角度回归问题转换为分类任务,并使用圆形平滑标签(CSL)来替代独热标签。CSL有两个重要特性:平滑性和周期性。第一个特性是为了减少相邻角度类别之间的惩罚,而第二个特性是为了解决角度的周期性突然变化。因此,基于CSL的角度预测方法可以自然地摆脱边界不连续的问题。

对于基于分类的旋转物体检测器,它会为每个角度区间(类别)预测一个置信度得分以获得角度分布向量,置信度得分最高的类别作为最终的角度预测结果。在实践中,基于分类的旋转目标检测方法仍然面临着很多局限性,例如高精度的角度估计和类似正方形的问题。首先,二元软标签的当前损失函数(焦点损失(FL)或二元交叉熵(BCE)损失)无法估计旋转物体的精确角度信息。与标准分类任务相比,角度分类具有相邻角度和跨越边界的角度具有相似物理意义的特性。因此,角度分类器必须对相邻角度预测具有弹性,并且对跨边界角度具有相似的预测结果。现有方法通过将 one-hot 标签转换为软标签并将损失函数扩展到连续形式 [例如,如 (2) 中的 FL 到连续形式] 来解决这些问题。然而,当前的损失范例需要在每个角度类别处拟合软标签值,尤其是当累积一些混淆位置(相邻角度和与目标位置的跨边界角度)的损失值以覆盖目标类别的约束时。这会带来两个影响,一是目标角度(角度峰值位置)的准确预测,二是高置信度和可靠的评估结果(峰值响应值)。如图1(a)所示是给定物体的软角度标签(CSL),目标角度位置用红色虚线标记。图 1(b)是基于连续 FL 的估计角度分布。我们可以看到预测的峰位和正确的角度类别之间还有一定的距离,分类置信度不是很高。其次,当前基于分类的旋转检测器可能难以处理方形物体。 “CSL + 180°”的组合可以自然地解决边界不连续的问题,但对于方形物体则无效。我们发现方形物体的模糊角度定义是造成这种现象的主要原因,我们称之为低置信度和不可靠的角度预测结果,如图 1(f)所示。

图1

图 1. 基于分类的旋转检测器的预测角度分布的可视化。 (a) 和 (d) 是样本的 CSL。真实角度位置用红色虚线标记。 (b) 和 (e) 连续形式的 FL 的预测角分布。 © 和 (f) 基于我们的高斯 FL 的预测角度分布。

在本文中,我们旨在从以下几个方面推进基于分类的旋转物体检测器的前沿:首先,我们提出了一种高斯 FL,它采用动态加权机制对旋转物体进行精确的角度估计。与使用 one-hot 标签的一般分类任务相比,我们通过自适应调整目标角度类别附近位置的损失权重来处理相邻角度之间的影响在负位置上使用高斯权重衰减,模型在相邻角度的预测上具有一定的弹性。同时,由于衰减权重的圆形特性,我们可以避免角度周期性导致的不一致问题。与使用二进制软标签的角度分类相比,我们不需要对每个类别的标签值进行近似,从而避免了大量不重要的损失贡献。我们使用交叉熵项来刺激目标类别的反应,同时抑制其余部分,这样网络可以更专注于预测物体的精确角度。如图 1 所示,我们的方法可以生成更准确和高置信度的角度预测结果 [图1(c)]与其他[图1(b)]。其次,我们提出了一个高宽比感知因子来准确预测方形物体的角度信息。五个参数 [cx, cy, h, w , θ] 是面向对象应用最广泛的(除非另有说明,否则我们指的是长边定义方法 [16]、[18])。然而,它不适用于类似方形的对象,这可以通过从我们的角度来看对象的高宽比接近 1 时角度目标值的非唯一性来解释。如图 1 的示例(底部情况)所示,当 θ 由矩形的长边和 x 轴确定时,网络在区分参考边时会产生歧义,导致训练过程不稳定并最终产生角度预测结果不佳[图1(e)]。在此背景下,我们基于高斯 FL 设计了高宽比感知因子,其关键思想在于根据高宽比动态减少模糊角位置的惩罚,因此网络可以获得更稳健的方向估计结果对于方形物体。如图 1(f) 所示,网络可以输出双峰角分布,这对于方形物体来说是合理的。

二、相关工作

三、方法

3.1 二进制软标签的FL分析

我们首先简要介绍用于角度分类的 CSL,然后分析 FL 对于二进制软标签的局限性。
我们假设角度取值范围为T(五参数长边定义下T=180°),每个区间的 △ T \bigtriangleup T T度数(默认 △ T = 1 ° \bigtriangleup T=1° T=)指代一个类别。直接使用one-hot标签不能对相邻和跨界的角类提供一定的容错性,因此将标签设计为周期平滑标签。图 1(a)和(d)显示了 CSL 的例子,它采用高斯函数进行标签平滑。由于CSL具有周期性和平滑性的特点,自然可以解决角度边界不连续的问题,同时对相邻角度类别的预测具有一定的误差容忍度。
然后,我们介绍了二进制软标签的损失函数。 FL [13]最初是为了解决前景和背景样本之间的类不平衡问题而设计的,可以表述如下:
在这里插入图片描述
其中 y ∈ {0, 1} 表示每个类别的 one-hot 标签,x ∈ [0, 1] 是网络对每个类别的估计概率。 αt 是一个权重因子,对于 1 类等于 α ∈ [0, 1],对于 0 类等于 1 − α。目前的 FL 形式只能支持 {0, 1} 离散标签,直接扩展到连续形式如下:
在这里插入图片描述

其中 X ∈ [0, 1],为模型估计的角分布,修改每一项的详细表达式如下:
在这里插入图片描述
在这里插入图片描述

图 2. 几个标签 y下的 BCE 损失值和相应的全局最小值用虚线标记。

现在,连续的 FL 可以直接用于软标签 y ∈ [0, 1]。请注意,当预测的类别得分 x 等于标签 y 时,连续 FL 中的 BCE 具有全局最小值(如图 2 所示)。因此,这会鼓励模型为每个角度类估计与软标签 y 关联的中间值(详细证明可在附录 A 中找到)。很难准确预测每个位置的人工值(人为设定的值)。当损失值在所有负样本角度类别上求和时,特别是对于一些混淆位置,例如目标角度区间附近的类别,这些相对微不足道的损失贡献会淹没目标位置,从而阻止网络预测精确的角度信息。直观地,我们在图 3 中展示了几个模拟角度分布的一些损失比较,它采用连续 FL 作为比较标准。比较X2和X3,两者都有准确的角度预测结果(角度峰值的位置)。然而,X2 具有更高的预测置信度,但损失值大于 X3。比较X1和X2,X1的峰值位置不如X2准确,但损失值较小。因此,连续版本的 FL 不是角度分类的最佳选择。
图3

图 3. 几种模拟角度分布 {X1, X2, X3} 的损失比较。损失函数采用连续的FL。红色实线表示软标签 Y ,虚线表示预测分布。

可以参考原文附录的理论推导,图3最直观地说明了这部分所阐述的问题,即原本的CSL把角度分布从独热分布变成连续分布(比如高斯分布),并用连续FL作为损失函数来训练,但由于目标角度以外的其他角度(比如相邻角度)也会对连续FL损失有贡献,这可能导致某些回归地更好的角度分布反而损失函数比较大。

3.2 用于角度分类的高斯 FL

为了在避免边界不连续问题的同时学习准确和高置信度的角度估计,我们将训练目标重建为受 [38] 启发的高斯 FL。完整的损失函数,我们称之为 Gaussian focal-CSL。
在这里插入图片描述
其中 ∣ X ∣ = ( T / △ T ) |X| = (T/\bigtriangleup T ) X=

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值