Rethinking Classification and Localization for Object Detection

最新推荐文章于 2024-05-09 09:34:29 发布

我就是超级帅

最新推荐文章于 2024-05-09 09:34:29 发布

阅读量1k

点赞数 3

分类专栏：目标识别与检测文章标签： 1024程序员节

本文链接：https://blog.csdn.net/weixin_35848967/article/details/109027628

版权

目标识别与检测专栏收录该内容

2 篇文章 0 订阅

订阅专栏

摘要

在基于R-CNN的检测器中，两个头结构（即完全连接的头和卷积头）已广泛用于分类和定位任务。但是对于这个两个任务两个头结果是如何工作的缺乏了解。为了理解该问题，我们进行了透彻的分析，发现一个有趣的事实，即两个头部结构对两个任务的偏好相反。具体而言全连接头(fc-head)更适合分类任务，而卷积头(conv-head)更适合定位任务。此外，我们检查了两个头部的输出特征图，发现fc-head比conv-head具有更高的空间敏感性，因此fc-head具有更强的区分能力来分别完整的对象和对象的一部分，但是对于整个对象的回归并不强大。基于以上的发现，我们提出了一种双头的方法，其全连接头部关注分类，卷积头关注边框的回归。without bells and wistles情况下，我们的方法分别从具有ResNet-50和ResNet-101主干的特征金字塔网络（FPN）基线在MS COCO数据集上获得3.5和2.8 AP的提升。

引言

大多数的two-stage目标检测，分类和边框回归是公用一个头部。两个不同头部结果被广泛的使用。Faster-RCNN 使用在单级特征图上使用卷积头，而FPN在多级特征图上使用全连接头(2-fc)，但是对于两个任务（目标的分类和定位）和两个头部之间缺乏了解。
在本文中，我们在两个检测任务中，例如分类和定位，对fc-head和conv-head进行了充分的比较。我们发现这两个不同的头结构是互补的，fc-head更适合分类任务，因为其分类分数与proposal和其对应的实际框之间的IoU更加相关。同时，conv-head提供了更准确的边界框回归。
我们认为这是因为fc-head对空间敏感，对于proposal的不同部分有不同的参数，而conv-head对于所有的部分共享卷积核中的参数。为了验证这一点，我们检查了两个头部输出的特征图，并且确认看fc-head在空间是更敏感。结果是，fc-head更好的区分一个完整的对象和对象的一部分（分类中），而conv-head对边框回归效果更好。

根据上述发现，我们提出了一种双头方法，该方法包括用于分类fc-head和用于边界框回归的conv-head（见图1-（c）），发挥双方优势。该设计的性能优于单个fc-head和单个conv-head（请参见图1-（a），（b）），其幅度不可忽略。此外，我们扩展了Double-Head（图1-（d）），以利用未重点关注的任务（即conv-head中的分类和fc-head中的边界框回归）进一步提高准确性。我们的方法在MS COCO 2017数据集[28]上的表现优于FPN基线，幅度不可忽略，使用ResNet-50和ResNet-101骨干分别获得3.5和2.8 AP的提升。
在这里插入图片描述

3 Analysis:Comparison between fc-head and conv-head

在本节中，我们将对fc-head和conv-head进行分类和边框回归进行比较。对于每一个头，我们将在数据集MS COCO2017上使用ResNet-50训练带有FPN主干的模型。fc-head包括两层的全连接层。conv-head有五个残差模块。评估和分析基于具有5000个图像的MS COCO 2017验证集。 fc-head和conv-head的AP分别为36.8％和35.9％。

3.1 Data Processing for Analysis

为了进行公平的比较，由于两个不同获选区域有着不同的候选区域，为了进行分析，对于两个头部都是在预先定义的候选区域中，而不是通过RPN生产的候选区域。这个预先定义的候选区域包括以不同大小的获选区域围绕着真实的框滑动窗口。对于每个真实的对象，我们产出大约14000的候选区域。这些候选区域与真实的框之间的IoUs（定义为proposal IoUs）的值逐渐的从0（背景）到1（真实的框）。对于每个proposal，两个检测器（fc-head和conv-head）生产分类得分和回归边框。次过程应用到所有验证集合上。
我们预先定义proposal以其对应的基本事实之间的IoU均匀地划分为20bin，并相应的将这些proposal分组。对于每个组，我们计算每个分类的得分和回归框的IoUs的标准差和均值。图2显示了小型，中型和大型物体的结果。
在这里插入图片描述

3.2. Comparison on Classification Task

图2的第一行显示了fc-head和conv-head的分类得分。与conv-head相比，fc-head为具有更高的IoU的proposal提供了跟高的分数。这表明，与conv-head相比，fc-head的分类得分与proposal和相应的ground truth之间的IoU的相关性更高，尤其是对于小对象。为了验证这一点，我们计算了proposal IoU和分类得分之间的Pearson相关系数（PCC）。结果（显示在图3（左）中）表明，fc-head的分类得分与proposal IoU更加相关。
我们也计算通过RPN和NMS之后的最终检测框生产的proposal的皮尔逊相关系数。结果显示在图3的右侧。与预先定义的proposal类似，fc-head比conv-head具有更高的PCC。因此，在计算AP时，具有较高的IoU检测框由于其较高的分类得分，使其具有较高的排名。
在这里插入图片描述

3.3. Comparison on Localization Task

图2的第二行显示了回归框之间的IoU以及对应的fc-head和conv-head的ground truth情况。与fc-head相比，当提案IoU高于0.4时，conv-head的回归框更为准确。这表明conv-head具有比fc-head更好的回归能力。

3.4 Discussion

为什么fc-head在分类得分和proposal IoUs之间显示出更多的相关性，而在定位时表现较差。我们认为这是因为fc-head在空间上比conv-head更敏感。直观地，fc-head在输入特征图的不同位置上应用了非共享变化（全连接层）。因此这空间信息被显示的嵌入。 fc-head的空间灵敏度有助于区分一个完整的物体和一个物体的一部分，但不能确定整个物体的偏移。相反，conv-head在输入特征图的所有位置上使用共享转换（卷积核），并使用平均池进行聚合。
接下来，我们检查con-head和fc-head的空间敏感性。对于conv-head的输出特征图是一个77的子图，我们使用对应的两个特征向量之间的余弦距离来计算任意一对位置之间的空间相关性。这导致每个单元格有一个7×7的相关矩阵，表示当前单元格与其他单元格之间的相关性。因此，可以通过平铺7×7网格中所有单元的相关矩阵来可视化输出特征图的空间相关性。图4（左）显示了多个多项的conv-head的平均空间相关性。对于fc-head的输出不是一个特征图，而是一个1024维的特征向量，我们重建其输出特征图。这可以通过按空间位置划分完全连接的层的权重矩（256·7·7×1024）来完成。77的子图中每个单元都有一个尺寸2561024维的变换矩阵，该变换矩阵用于生成该单元的输出特征。因此，重建了fc-head的输出特征图7×7×1024。因此，重建了fc-head的输出特征图7×7×1024。然后，我们可以用类似于conv-head的方式计算其空间相关性。图4（中）显示了fc-head在多个对象上的输出特征图中的平均空间相关性。与conv-head相比，fc-head具有显着更少的空间相关性。这支持了我们的推测，即fc-head在空间上比conv-head更为敏感，这使得区分提案是覆盖一个完整对象还是部分对象更加容易。另一方面，回归边界框不如conv-head健壮。
我们通过沿空间位置拆分fc-head，进一步检查权重参数 (256 · 7 · 7 × 1024) 的空间相关性。结果是，77网格的每个单元都有一个尺寸维为256*1024的矩阵，用于计算与其它单元的相关性。类似于输出特征图上的相关性分析，我们计算所有单元的相关性矩阵。图4(右)显示fc-head权重参数的空间相关性。它与fc-head的输出特征图中的空间相关性具有相似的模式（如图4所示（中））。
在这里插入图片描述

4 Our Approach:Double-Head

基于以上的分析，我们提出了一种双头部方法利用双头部结果的优势。在本节中，我们首先引入Double-Head网络结构，其具有全连接头部(fc-head)用于分类和卷积头部（conv-head）用于边框回归。然后，我们通过利用未重点关注的任务（即fc-head中的边界框回归和conv-head中的分类）将Double-Head扩展为Double-Head-Ext。

4.1 Network Structure

我们的Double-Head方法将分类和定位分为fc-head和conv-head。主干和头部网络的详细描述如下：
Backbone: 我们使用FPN主干[26]生产候选边框，并且使用RoIAlign[13]从多级别中提取特征。每个proposal有一个特征map其大小为25677，每个proposal都有一个尺寸为256×7×7的特征图，通过fc-head和conv-head将其变换为两个特征向量（每个特征向量的尺寸为1024），分别用于分类和边框回归。
Fully Connected Head(fc-head) 拥有两个全连接层(图1-©)，FPN的设计为（图1-(a)）。其输出为的维度为1024，参数大小为13.25M。
**Convolution Head(conv-head)**卷积头堆叠了K个残差模块[15]。这第一模块将通道从256增加到1024(如图5-(a)所示)，其他是bottleneck blocks[15]（如图5-(b)所示）。最后，使用平均池生成尺寸为1024的特征向量。每个残差块具有1.06M参数。每个残差块具有1.06M参数。我们还通过在每个bottleneck blocks之前插入一个non-local block[43]（参见图5-（c））来增强卷积头，以增强前景对象。每个non-local block都有2M个参数。
Loss Function: 两个头部（fc-head和conv-head）和端到端的RPN网络一起训练。总损失计算如下：
在这里插入图片描述

4.2 Extension:Leveraging Unfocused Tasks

在普通的Double-Head中，每个head专注于其分配的任务（即，在fc-head中进行分类，在conv-head中进行边界框回归）。此外，我们发现未重点关注的任务（例如，fc-head中的边界框回归和conv-head中的分类）在两个方面都有帮助：（a）边界框回归为fc-head提供辅助监督，以及（b）两个头部的分类器是互补的。因此，我们在训练中引入了unfocused的任务监督，并提出了一种补充融合方法，在推理过程中将两个头部的分类得分相结合（见图1-（d））。此扩展名称为Double-Head-Ext。
Unfocused Task Supervision: 由于

我就是超级帅

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
Rethinking Classification and Localization for Object Detection

摘要在基于R-CNN的检测器中，两个头结构（即完全连接的头和卷积头）已广泛用于分类和定位任务。但是对于这个两个任务两个头结果是如何工作的缺乏了解。为了理解该问题，我们进行了透彻的分析，发现一个有趣的事实，即两个头部结构对两个任务的偏好相反。具体而言全连接头(fc-head)更适合分类任务，而卷积头(conv-head)更适合定位任务。此外，我们检查了两个头部的输出特征图，发现fc-head比conv-head具有更高的空间敏感性，因此fc-head具有更强的区分能力来分别完整的对象和对象的一部分，但是对于
复制链接

扫一扫