yolov8 obb算法中的GBB和ProbIoU核心内容

2021年10月提交的原论文《Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection》

一. 研究背景

  1. 研究问题:这篇文章要解决的问题是如何更好地表示对象的形状和位置,以便在目标检测任务中提高检测精度。传统的水平边界框(HBB)和定向边界框(OBB)在处理非对齐矩形对象时存在局限性。
  2. 研究难点:该问题的研究难点包括:如何在对象形状不规则的情况下提供更为精确的表示方法,以及如何设计一种适用于现有目标检测器的损失函数,使其能够无缝集成。
  3. 相关工作:该问题的研究相关工作有:HBB和OBB作为对象表示方法的广泛应用,iou及其变体(如GIoU、DIoU、CIoU)作为回归损失的探索,以及将OBB映射到高斯分布并探索高斯Wasserstein距离(GWD)作为回归损失的方法。

 

二. 研究方法

这篇论文提出了使用高斯边界框(Gaussian Bounding Boxes, GBB)来模糊表示对象区域,并提出了一种基于Hellinger距离的概率交并比(Probabilistic Intersection-over-Union, ProbIoU)作为相似性度量。具体来说,

  1. 高斯边界框(GBB):首先,使用二维高斯分布来表示对象的模糊区域。高斯分布由均值向量 μ=(x0,y0)T 和协方差矩阵 Σ 描述,它们诱导出期望的二维椭圆形状。协方差矩阵可以通过以下公式表示:

    其中 Rθ​ 是二维旋转矩阵。
  2. 概率交并比(ProbIoU):其次,提出了一种基于Hellinger距离的相似性度量,称为ProbIoU。Hellinger距离定义 其中 Bc是Bhattacharyya系数。ProbIoU可以表示为 1−HD(p,q),并且具有以下优点:
    • 满足所有距离度量标准。
    • 对象缩放不变。
    • 提供闭式的解析表达式。
  3. 回归损失函数:最后,提出了两种基于ProbIoU的损失函数:

     这些损失函数都是可微的,并且当 p=q 时达到最小值零。

 

三. 实验设计

  1. 数据集:实验使用了多个数据集,包括PASCAL VOC 2007、DOTA v1和HRSC2016。这些数据集包含了不同类型的对象,具有不同的标注方式(HBB、OBB或分割掩码)。
  2. 对比方法:实验对比了使用传统HBB和OBB的目标检测器,以及基于ProbIoU的损失函数。具体模型包括EfficientDet和SSD(用于HBB),RetinaNet和R3 Det(用于OBB)。
  3. 训练设置:实验中使用了Adam优化器和随机梯度下降(SGD)优化器。训练过程中,模型在前半部分使用 L2 损失,后半部分切换到 L1损失。

 

四. 结果与分析

  1. 不同对象表示的比较:在COCO 2017数据集上,GBB诱导的椭圆形状与分割掩码的IoU值高于HBB和OBB。具体来说,77个类别的中位IoU值高于HBB和OBB,仅有3个类别的中位IoU值低于0.5。

  2. HBB目标检测的结果:在PASCAL VOC 2007数据集上,使用ProbIoU作为评估指标的EfficientDet D0和SSD300模型的AP75值分别为56.76和72.39,均优于其他损失函数。

  3. OBB目标检测的结果:在DOTA v1数据集上,使用R-50 RetinaNet检测器,基于ProbIoU的损失函数的平均AP50值为88.80,高于GWD-ret的88.77。在HRSC2016数据集上,使用R-50 RetinaNet检测器,基于ProbIoU的损失函数的AP75值为61.32,高于GWD-ret和GWD-rep。

五. 总体结论

这篇论文提出了一种基于高斯分布的对象表示方法(GBB)和一种新的相似性度量(ProbIoU),并展示了其在目标检测任务中的有效性。实验结果表明,基于ProbIoU的损失函数在大多数情况下优于传统的iou损失函数,并且在处理定向对象检测时表现出色。未来的工作将进一步探索其他统计方法用于比较GBB,并扩展GBB到三维空间以进行体积对象检测。

六. 创新点

  1. 高斯边界框(GBB)表示:提出了使用高斯分布来模糊表示对象区域,提供了隐式的二进制表示(可能是旋转的椭圆)。
  2. 概率交并比(ProbIoU):基于Hellinger距离提出了一种相似性度量,称为概率交并比(ProbIoU),可以视为一种概率形式的IoU。
  3. 实验结果:实验结果表明,提出的GBB表示比传统的HBB和OBB更接近标注的分割掩码。
  4. 回归损失函数:提出了基于ProbIoU的损失函数,这些函数直观、可微、计算简单,并且可以无缝集成到现有的使用HBB或OBB的对象检测器中。
  5. 通用性:提出的表示方法不仅适用于传统的HBB和OBB,还可以直接应用于分割掩码,具有更强的通用性。
  6. 两阶段训练协议:建议了一种两阶段训练协议,先使用L2进行初步对齐,然后切换到L1以更好地拟合GBB。

七. 不足点

  1. 方向限制:GBB的方向是从椭圆形表示继承而来的,因此各向同性的高斯分布不能定向(不像方形的OBB)。
  2. 极细长对象的挑战:对于非常细长的对象,参数a或b可能会非常小,这可能导致在比较不对齐的GBB时,Bhattacharyya距离产生非常大的梯度,从而在训练过程中引起不稳定甚至收敛失败。
  3. 权重设置问题:尽管提出了两阶段训练协议,但仍然存在正确设置损失权重的问题,模型对权重的选择更为敏感。
  4. 三维扩展:计划探索GBB的三维版本,用于体积对象检测。
  • 19
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值