Rethinking Classification and Localization for Object Detection

摘要

在基于R-CNN的检测器中,两个头结构(即完全连接的头和卷积头)已广泛用于分类和定位任务。但是对于这个两个任务两个头结果是如何工作的缺乏了解。为了理解该问题,我们进行了透彻的分析,发现一个有趣的事实,即两个头部结构对两个任务的偏好相反。具体而言全连接头(fc-head)更适合分类任务,而卷积头(conv-head)更适合定位任务。此外,我们检查了两个头部的输出特征图,发现fc-head比conv-head具有更高的空间敏感性,因此fc-head具有更强的区分能力来分别完整的对象和对象的一部分,但是对于整个对象的回归并不强大。基于以上的发现,我们提出了一种双头的方法,其全连接头部关注分类,卷积头关注边框的回归。without bells and wistles情况下,我们的方法分别从具有ResNet-50和ResNet-101主干的特征金字塔网络(FPN)基线在MS COCO数据集上获得3.5和2.8 AP的提升。

引言

大多数的two-stage目标检测,分类和边框回归是公用一个头部。两个不同头部结果被广泛的使用。Faster-RCNN 使用在单级特征图上使用卷积头,而FPN在多级特征图上使用全连接头(2-fc),但是对于两个任务(目标的分类和定位)和两个头部之间缺乏了解。
在本文中,我们在两个检测任务中,例如分类和定位,对fc-head和conv-head进行了充分的比较。我们发现这两个不同的头结构是互补的,fc-head更适合分类任务,因为其分类分数与proposal和其对应的实际框之间的IoU更加相关。 同时,conv-head提供了更准确的边界框回归。
我们认为这是因为fc-head对空间敏感,对于proposal的不同部分有不同的参数,而conv-head对于所有的部分共享卷积核中的参数。为了验证这一点,我们检查了两个头部输出的特征图,并且确认看fc-head在空间是更敏感。结果是,fc-head更好的区分一个完整的对象和对象的一部分(分类中),而conv-head对边框回归效果更好。

根据上述发现,我们提出了一种双头方法,该方法包括用于分类fc-head和用于边界框回归的conv-head(见图1-(c)), 发挥双方优势。 该设计的性能优于单个fc-head和单个conv-head(请参见图1-(a),(b)),其幅度不可忽略。 此外,我们扩展了Double-Head(图1-(d)),以利用未重点关注的任务(即conv-head中的分类和fc-head中的边界框回归)进一步提高准确性。 我们的方法在MS COCO 2017数据集[28]上的表现优于FPN基线,幅度不可忽略,使用ResNet-50和ResNet-101骨干分别获得3.5和2.8 AP的 提升。
在这里插入图片描述

相关工作

One-stage Object Detectors:OverFeat[37]通过在特征图上滑动窗口来检测目标。SSD[29,9]和YOLO[32,33,34]在对类别的预测和目标的定位的速度上进行了调整。RetinaNet[27]通过引入focal loss缓解极端情况下前景和背景的类别不平衡问题。基于点的方法[21,22,47,48],以对象的关键点
建模(拐点,中心点等),并且构建关键点检测网络。
Two-stage Object Detectors:RCNN[12]用深度神经网络从选择性搜索中生成的proposals中提取特征。SPPNet[14]使用空间金字塔pooling速度比RCNN有显著的提高。Fast RCNN[10]使用了可微的RoI Pooling提高了速度和准确性。Faster RCNN引入了RPN(Region Proposal Network)来生成proposals。R-FCN采用位置敏感ROI池化层解决位移可变性问题。FPN [26]建立了一个具有横向连接的自上而下的体系结构,以跨多个层提取特征。
Backbone Networks: Fast RCNN and Faster RCNN从VGG-16的conv4提取特征,而FPN利用ResNet的多层(conv2至conv5)中的特征。Deformable ConvNets提出deformable convolution和deformable RoI增加了空间采用的位置。Trident Network[24]生成具有多分支结构的scale-aware特征图。MobileNet[17,36]和ShuffleNet[46,30]引入了高效的操作(例如,深度卷积,组卷积,通道随机操作等)在移动设备上进行加速。
Detection Heads: Light-Head RCNN[25]引入了具有thin的特征图的高效头部网络。Cascade RCNN [3]构造了一系列检测头,这些检测头通过增加的IoU阈值进行训练。特征共享Cascade RCNN [23]利用特征共享来集成Cascade RCNN [3]的多级输出以改善结果。Mask RCNN [13]引入了一个额外的头部来进行实例分割。COCO Detection 18 Challenge winner (Megvii) [1]在卷积头中结合了边界框回归和实例分割。 IoU-Net [20]引入了一个分支来预测检测到的边界框及其对应的真实框之间的IoU。类似于IoU网络,Mask Scoring RCNN [18]提出了一个额外的头部来预测每个分割区域的Mask IoU分数。He et[16]学习边框预测的不确定性,并且有一个额外的任务来改善定位的结果。Learning-to-Rank [39]利用一个额外的头来生成非最大抑制(NMS)的proposal的rank value。Zhang and Wang [45]指出,分类和目标域的定位之间存在着misalignments。与现有方法不同,现有方法只用一个头来提取兴趣区域(RoI)特征,以进行分类和边界框回归任务,而根据我们的透彻分析,我们建议将这两个任务拆分为不同的头

3 Analysis:Comparison between fc-head and conv-head

在本节中,我们将对fc-head和conv-head进行分类和边框回归进行比较。对于每一个头,我们将在数据集MS COCO2017上使用ResNet-50训练带有FPN主干的模型。fc-head包括两层的全连接层。conv-head有五个残差模块。评估和分析基于具有5000个图像的MS COCO 2017验证集。 fc-head和conv-head的AP分别为36.8%和35.9%。

3.1 Data Processing for Analysis

为了进行公平的比较,由于两个不同获选区域有着不同的候选区域,为了进行分析,对于两个头部都是在预先定义的候选区域中,而不是通过RPN生产的候选区域。这个预先定义的候选区域包括以不同大小的获选区域围绕着真实的框滑动窗口。对于每个真实的对象,我们产出大约14000的候选区域。这些候选区域与真实的框之间的IoUs(定义为proposal IoUs)的值逐渐的从0(背景)到1(真实的框)。对于每个proposal,两个检测器(fc-head和conv-head)生产分类得分和回归边框。次过程应用到所有验证集合上。
我们预先定义proposal以其对应的基本事实之间的IoU均匀地划分为20bin,并相应的将这些proposal分组。对于每个组,我们计算每个分类的得分和回归框的IoUs的标准差和均值。图2显示了小型,中型和大型物体的结果。
在这里插入图片描述

3.2. Comparison on Classification Task

图2的第一行显示了fc-head和conv-head的分类得分。与conv-head相比,fc-head为具有更高的IoU的proposal提供了跟高的分数。这表明,与conv-head相比,fc-head的分类得分与proposal和相应的ground truth之间的IoU的相关性更高,尤其是对于小对象。 为了验证这一点,我们计算了proposal IoU和分类得分之间的Pearson相关系数(PCC)。 结果(显示在图3(左)中)表明,fc-head的分类得分与proposal IoU更加相关。
我们也计算通过RPN和NMS之后的最终检测框生产的proposal的皮尔逊相关系数。结果显示在图3的右侧。与预先定义的proposal类似,fc-head比conv-head具有更高的PCC。因此,在计算AP时,具有较高的IoU检测框由于其较高的分类得分,使其具有较高的排名。
在这里插入图片描述

3.3. Comparison on Localization Task

图2的第二行显示了回归框之间的IoU以及对应的fc-head和conv-head的ground truth情况。 与fc-head相比,当提案IoU高于0.4时,conv-head的回归框更为准确。 这表明conv-head具有比fc-head更好的回归能力。

3.4 Discussion

为什么fc-head在分类得分和proposal IoUs之间显示出更多的相关性,而在定位时表现较差。我们认为这是因为fc-head在空间上比conv-head更敏感。直观地,fc-head在输入特征图的不同位置上应用了非共享变化(全连接层)。因此这空间信息被显示的嵌入。 fc-head的空间灵敏度有助于区分一个完整的物体和一个物体的一部分,但不能确定整个物体的偏移。 相反,conv-head在输入特征图的所有位置上使用共享转换(卷积核),并使用平均池进行聚合。
接下来,我们检查con-head和fc-head的空间敏感性。对于conv-head的输出特征图是一个77的子图,我们使用对应的两个特征向量之间的余弦距离来计算任意一对位置之间的空间相关性。这导致每个单元格有一个7×7的相关矩阵,表示当前单元格与其他单元格之间的相关性。因此,可以通过平铺7×7网格中所有单元的相关矩阵来可视化输出特征图的空间相关性。图4(左)显示了多个多项的conv-head的平均空间相关性。对于fc-head的输出不是一个特征图,而是一个1024维的特征向量,我们重建其输出特征图。这可以通过按空间位置划分完全连接的层的权重矩(256·7·7×1024)来完成。77的子图中每个单元都有一个尺寸2561024维的变换矩阵,该变换矩阵用于生成该单元的输出特征。因此,重建了fc-head的输出特征图7×7×1024。因此,重建了fc-head的输出特征图7×7×1024。然后,我们可以用类似于conv-head的方式计算其空间相关性。图4(中)显示了fc-head在多个对象上的输出特征图中的平均空间相关性。与conv-head相比,fc-head具有显着更少的空间相关性。这支持了我们的推测,即fc-head在空间上比conv-head更为敏感,这使得区分提案是覆盖一个完整对象还是部分对象更加容易。另一方面,回归边界框不如conv-head健壮。
我们通过沿空间位置拆分fc-head,进一步检查权重参数 (256 · 7 · 7 × 1024) 的空间相关性。结果是,7
7网格的每个单元都有一个尺寸维为256*1024的矩阵,用于计算与其它单元的相关性。类似于输出特征图上的相关性分析,我们计算所有单元的相关性矩阵。图4(右)显示fc-head权重参数的空间相关性。它与fc-head的输出特征图中的空间相关性具有相似的模式(如图4所示(中))。
在这里插入图片描述

4 Our Approach:Double-Head

基于以上的分析,我们提出了一种双头部方法利用双头部结果的优势。在本节中,我们首先引入Double-Head网络结构,其具有全连接头部(fc-head)用于分类和卷积头部(conv-head)用于边框回归。然后,我们通过利用未重点关注的任务(即fc-head中的边界框回归和conv-head中的分类)将Double-Head扩展为Double-Head-Ext。

4.1 Network Structure

我们的Double-Head方法将分类和定位分为fc-head和conv-head。主干和头部网络的详细描述如下:
Backbone: 我们使用FPN主干[26]生产候选边框,并且使用RoIAlign[13]从多级别中提取特征。每个proposal有一个特征map其大小为25677, 每个proposal都有一个尺寸为256×7×7的特征图,通过fc-head和conv-head将其变换为两个特征向量(每个特征向量的尺寸为1024),分别用于分类和边框回归。
Fully Connected Head(fc-head) 拥有两个全连接层(图1-©),FPN的设计为(图1-(a))。其输出为的维度为1024,参数大小为13.25M。
**Convolution Head(conv-head)**卷积头堆叠了K个残差模块[15]。这第一模块将通道从256增加到1024(如图5-(a)所示),其他是bottleneck blocks[15](如图5-(b)所示)。 最后,使用平均池生成尺寸为1024的特征向量。每个残差块具有1.06M参数。每个残差块具有1.06M参数。 我们还通过在每个bottleneck blocks之前插入一个non-local block[43](参见图5-(c))来增强卷积头,以增强前景对象。 每个non-local block都有2M个参数。
Loss Function: 两个头部(fc-head和conv-head)和端到端的RPN网络一起训练。总损失计算如下:
在这里插入图片描述
在这里插入图片描述

4.2 Extension:Leveraging Unfocused Tasks

在普通的Double-Head中,每个head专注于其分配的任务(即,在fc-head中进行分类,在conv-head中进行边界框回归)。 此外,我们发现未重点关注的任务(例如,fc-head中的边界框回归和conv-head中的分类)在两个方面都有帮助:(a)边界框回归为fc-head提供辅助监督,以及(b)两个头部的分类器是互补的。 因此,我们在训练中引入了unfocused的任务监督,并提出了一种补充融合方法,在推理过程中将两个头部的分类得分相结合(见图1-(d))。 此扩展名称为Double-Head-Ext。
Unfocused Task Supervision: 由于

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
回答: 本文提出了一种名为EfficientFormerV2的高效网络,旨在重新思考Vision Transformers以实现与MobileNet相当的模型大小和速度。作者结合了细粒度联合搜索策略,通过一系列的设计和优化,使EfficientFormerV2在相同参数量和延迟下比MobileNetV2在ImageNet验证集上的性能高出4个百分点。\[1\]该网络的设计考虑了资源受限型硬件的需求,特别关注模型的参数量和延迟,以适应端侧部署的场景。\[2\]如果您对EfficientFormerV2感兴趣,可以通过扫描二维码或添加微信号CVer222来获取论文和代码,并申请加入CVer-Transformer微信交流群。此外,CVer学术交流群也提供了其他垂直方向的讨论,包括目标检测、图像分割、目标跟踪、人脸检测和识别等多个领域。\[3\] #### 引用[.reference_title] - *1* *3* [更快更强!EfficientFormerV2来了!一种新的轻量级视觉Transformer](https://blog.csdn.net/amusi1994/article/details/128379490)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [EfficientFormerV2: Transformer家族中的MobileNet](https://blog.csdn.net/CVHub/article/details/129739986)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值