摘要
在目标识别过程中,IOU是最流行的一个评价基准,在进行边框优化的过程中,IOU一般是取最大值,对一个标准进行优化的目标函数是其标准本身,在2D回归的过程中,IOU展示了他直接能作为一个损失函数,然而,IOU展现了他的缺点,在没有重叠的边框的时候不好使用,在这篇论文中指出了IOU的缺点,通过介绍一个通用的版本作为一个新的损失函数和新的度量方式,通过使用GIOU,在Pascal VOC及MS COCO数据集上有了较大的提升。
介绍
边框回归是一个很重要的一个部分在2D/3D计算机视觉中,目标检测,目标追踪都依赖边框回归,该领域趋于通过利用较好的backbone或者更好的策略来提取局部特征的深度学习网络来提升其性能,然而,有一点被人们所忽略的是可以用基于IoU的评价计算机制替换常规的L1,L2损失函数。
IOU作为Jaccard index而闻名,它广泛应用于任意两个图的相似度对比,IOU编码这个目标是比较宽度,高度,位置等,基于正则化机制来关注二者的区域。IoU具有尺寸不变性,基于此机制可以进行目标检测,分割及追踪等。
然而,在2D/3D空间上定义两个边界框参数表示的常规损失如Ln等使其值最小与通过优化来提高IoU的值,二者之间的并没有太大的关联,比如我们采用l1与l2相同的情况下,regression效果明显不同,但是IOU的数值确有明显的不同,最能反映回归的效果
为此,这篇论文提出来提出了IoU可以进行反向传播,并用于目标函数的优化,同时将IOU扩展到了非重叠的情况
相关的工作
本文提出用IOU来指导回归任务的学习,主要是因为用IOU作为一个直接的指标比用其他的函数效果都要好,而此时相关的损失函数为
但是用IOU直接作为损失函数有着明显的缺点
假如两个框没有相交时,IOU=0,不能反映两个框的重合度,为了解决这个问题,本文提出了一个新的方法,叫做GIOU,具体的方法文中是这样描述的
就是先计算两个闭包区域最小面积,然后在计算IOU,GIOU=IOU减去闭包区域中不属于两个框的区域占闭包区域的比重的值。GIOU有如下特点
-
与IOU相似,GIoU也是一种距离度量,作为损失函数的话,
-
和IOU相似,GIoU对scale不敏感
-
GIoU是IOU的下界,在两个框无线重合的情况下,IoU=GIoU
-
IoU取值[0,1],但GIoU有对称区间,取值范围[-1,1]。在两者重合的时候取最大值1,在两者无交集且无限远的时候取最小值-1,因此GIoU是一个非常好的距离度量指标。
-
与IoU只关注重叠区域不同,GIoU不仅关注重叠区域,还关注其他的非重合区域,能更好的反映两者的重合度。
GIOU as Loss for Bounding box Regression
IOU与GIOU在2D图像检测中计算方法非常简单,具体的计算方法文中是这样描述的
1.分别计算预测框和标记框的大小
2.计算相交区域的面积
3.计算最小闭包区域面积
4.计算IOU与GIOU
5.
实验
从实验结果我们可以看出在YOLO v3下涨点明显,但是在Faster R-CNN和Mask R-CNN并不明显,原因是因为faster rcnn和mask rcnn的anchor很密,GIoU没有什么明显的优势。