【CVPR 2021】VarifocalNet: An IoU-aware Dense Object Detector的译读笔记

论文

VarifocalNet: An IoU-aware Dense Object Detector

摘要

准确排序大量候选框对dense检测器获得高精度是十分重要的。之前的工作使用类别分数或者类别和位置分数的组合来排序候选框。不过,这两种选择都无法获得有效的排序,因此降低了检测性能。本文提出学习一种 IoU-aware Classification Score(IACS)作为物体置信度和定位精度的联合表示。本文展示了基于IACS的密集(dense)检测器可以实现更加准确的候选框排序。本文设计了一种新的损失函数,称为 Varifocal Loss,以训练密集检测器来预测IACS分数,并提出新的星型限位框特征表示,以实现IACS预测和限位框对准。结合这两种新组件以及一个限位框对准分支,本文基于FCOS+ATSS建立IoU感知的密集目标检测器,称之为VarifocalNet或简称为VFNet。在MS-COCO上的扩展实验显示VFNet对使用不同主干的优秀基线都高出大约2.0mAP。本文最好的模型VFNet-X-1200,使用Res2Net-101-DCN,在COCO-test-dev上实现了单模单尺度55.1mAP,在众多目标检测器中实现了SOTA的效果。代码位于https://github.com/hyz-xmaster/VarifocalNet

1 引言

  如今的目标检测模型,无论是two-stage方法[1_RCNN, 2_FastRCNN, 3_FasterRCNN, 4_MaskRCNN]还是one-stage方法[5_YOLOv1, 6_YOLOv3, 7_SSD, 8_FocalLoss, 9_FCOS],通常开始会生成一组带有类别分数的冗余限位框,然后使用NMS来移除同一目标上重复的限位框。通常来说,类别分数是用来在NMS[1_RCNN, 2_FastRCNN, 3_FasterRCNN, 4_MaskRCNN, 8_FocalLoss]中排序限位框的。然而,这却降低了检测性能,因为类别分数不总是限位框定位精度的良好估计[10_IoUNet],而位置准确但类别分数低的检测框可能会在NMS中被去掉。
  为了解决这个问题,现有的密集目标检测器会预测一个额外的IoU分数[11_IoU_Aware_RetinaNet]或是一个质心分数[9_FCOS],作为位置精度的估计,并将其与类别分数相乘用在NMS中排序检测框。这些方法可以缓解类别分数和目标位置精度之间的misalignment问题。然而,他们是次优的,因为将两个不准确的预测分数相乘可能会导致更差的排序基础,本文在第3章中表明这些方法实现性能的上界是有限的。除此之外,添加一个额外的网络分支来预测定位分数并不是一种简洁的解决方案,并且会产生额外的计算负担。
  为了克服这些不足,一个自然的问题是:除了预测一个额外的位置分数,可以将其合并到类别分数中去吗?也就是说,预测一种定位感知或IoU感知的类别分数(IACS),来同时表示某个物体类别的存在性和产生的限位框的定位精度。
  本文回答了以上问题,并做出如下贡献。(1)本文展示了准确排序候选框对高精度的密集检测器至关重要,并且IACS相比于其它方法实现了更好的排序效果(见第3章)。(2)本文提出一种新的 Varifocal Loss来训练密集检测器,以预测IACS分数。(3)本文设计了一种星形限位框的特征表示来计算IACS并refine限位框。(4)本文基于FCOS[9_FCOS]+ATSS及[12_ATSS]其组件发明了新的密集目标检测器,称为VarifocalNet或简称为VFNet,以利用IACS的优势。本文方法的说明如图1所示。
在这里插入图片描述
  Varifocal Loss是受到了 Focal Loss[8_FocalLoss]的启发,是一种动态尺度的二分类交叉熵损失。不过,它可以监督密集目标检测器来回归连续IACSs分数,更独特的是它使用了一种asymmetrical的训练样本加权方法。它在训练时只会降低负样本的权重来解决类别不平衡的问题,而会增加高质量正样本的权重以生成主要的检测框。这使得训练集中在告知的正样本上,对于实现高检测性能十分重要。
  星形边界框特征表示使用九个固定采样点的特征(图1中的黄圈),基于可变形卷积来表示边界框[13_DCNv1, 14_DCNv2]。相较于大多数密集检测器[7_SSD, 8_FocalLoss, 9_FCOS, 15_FoveaBox]使用的点特征,这种星形表示能够捕获边界框的几何形状及其附近的上下文信息,这对于预测准确的IACS分数至关重要。它还能够有效地细化初始生成的粗糙边界框而不会损失效率。
  为了验证本文提出模块的有效性,本文构建了基于FCOS+ATSS的VFNet模型,并在COCO[16_COCO]基准测试上进行了评测。实验表明本文提出的VFNet在使用不同主干的情况下始终超出强基线约2.0AP,并且本文最佳的模型VFNet-X-1200使用Res2Net-101-DCN在COCO-test-dev上达到了单模单尺度的55.1AP,超越了之前发表最好的单模单尺度结果。

2 相关工作

目标检测:随着目标检测的发展,现今流行的目标检测器能够按照其是否使用锚框来分类。流行的两阶段方法[3_FasterRCNN, 4_MaskRCNN]和多阶段方法[17_CascadeRCNN]通常使用anchors生成物体候选框来进行下游的分类和回归,相对而言,基于锚框的一阶段方法[6_YOLOv3, 7_SSD, 8_FocalLoss, 12_ATSS, 18_FreeAnchor, 19_Proposal_By_Guided_Anchoring]则直接对锚框进行分类和调整,而不进行物体候选框的生成。
  近些时,anchor-free检测器由于其新颖性和简单性而引起了广泛关注。其中一种将目标检测问题表述为关键点或semantic-point检测问题,包括CornerNet[20_CornerNet]、CenterNet[21_CenterNet_Triplets]、ExtremeNet[22_ExtremeNet]、ObjectsAsPoints[23_CenterNet]和RepPoints[24_RepPoints]。另一种anchor-free检测器与基于anchor的一阶方法比较类似,但是它们不会使用锚框。相对地,它们将特征金字塔[25_FPN]上的每个点分类为前景类或背景类,并直接预测前景点到真值边界框四个边的距离,来生成检测框。近期流行的方法包括DenseBox[26_DenseBox]、FASF[27_FASF]、FoveaBox[15_FoveaBox]、FCOS[9_FCOS]和SPAD[28_SPAD]。本文构建的模型VFNet是基于ATSS版本的FCOS,因为该版本FCOS简单、高效和性能出色。
检测框排序指数:除了类别分数,其它检测框排序指数也在文献中出现。IoU-Net[10_IoUNet]]使用一个额外的网络来预测IoU分数并用它在NMS中排序边界框,但是它仍然选用类别分数作为最终的检测得分。Fitness NMS[29_FitnessNMS]、IoU-aware RetinaNet11_IoU_Aware_RetinaNet]]和[30_Learning_Rank_Proposals]本质上与IoU-Net相似,只是它们会将预测的IoU分数或IoU-based排序分数和类别分数相乘作为排序基准。不同于预测IoU-based分数,FCOS[9_FCOS]预测中心度分数来一直低质量的检测框。
  相对来说,本文只预测IACS作为排序分数。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值