IEEE论文:目标检测中目标分类和目标定位的注意力层分离

摘要

       目标检测成为计算机视觉的主要领域之一。在目标检测中,进行目标分类和目标定位任务。以前的基于深度学习的目标检测网络使用完全共享网络生成的特征地图来执行(这里也就是说我们学习的经典的目标检测算法框架,他们都是通过深层卷积网络提取出来的同一个特征图来进行目标分类和定位这两大任务的)。但是,目标分类更侧重于特征图中最具辨别力的对象部分。然而,对象定位需要聚焦于对象的整个区域的特征图。在本文中,我们考虑了这两个任务之间的差异,提出了一种新的目标检测网络。本文提出的基于深度学习的网络主要由两部分组成:<1>注意力网络部分,其中生成任务特定的注意图;<2>层分离部分,其中分离用于估计两个任务的层。最后,我们在Pascal VOC数据集和MS Coco数据集上的综合实验结果表明,本文所提出的目标检测网络的性能优于现有的方法。

关键词:

目标检测、目标分类、目标定位、注意力网络、层分离

一、介绍

       目标检测是计算机视觉领域研究最活跃的领域之一,在目标检测中,执行目标分类和目标定位,目标分类的目的是将目标从背景中分离出来,并对目标类别进行分类(例如一个人或一辆车)。而目标定位的目的是通过在目标周围绘制边界框来定位目标。随着深层卷积神经网络(CNN)的发展,目标检测性能有了很大的提高,基于CNN的目标检测网络可以分为两类:两阶段的目标检测和一阶段的目标检测网络。在两阶段的检测网络中,目标检测过程由两个步骤组成:第一步是生成ROI区域,这些区域很可能是图像中的目标。Fast R-CNN、Faster R-CNN和R-FCN是两阶段检测网络的代表。在一阶段检测网络中,使用预定义锚点执行目标分类和目标定位。YOLO和SSD是单阶段检测网络的代表。所有基于CNN的目标检测网络的共同特征是在共享网络内对特征图进行编码,换言之,使用共享网络得到的相同特征图来进行对象分类和对象定位。

       然而,很明显,目标分类和目标定位有不同的特点。目标分类集中在目标中最具区分性的部分,以预测正确的对象类别。另一方面,目标定位集中在整个对象区域,因此可以绘制包含整个对象的边界框。因此,设计一种考虑两个任务的不同特点的目标检测网络是合理的。

       在本文中,我们考虑到上述两种任务的不同,提出了一种新的目标检测网络。首先,我们设计了一个网络,在这个网络中,共享层在对象分类和对象定位方面都具有较低的语义。基于最后一个共享层的特征图,我们部署了两个注意力网络用来生成两种类型的注意力图以适应目标分类和目标定位。图1展示了为两个任务提出的两种生成注意力图的示例。图1b展示了生成的用于目标定位的注意力图,它集中在对象的整个区域上,它是将(乘法)应用于最后共享层的特征图以执行目标定位。这里要注意,考虑目标定位的注意力图的特征被送到区域建议网络(RPN)中。图1c展示了生成的用于目标分类的注意力图,其集中在对象的部分区域。它还适用于最后一个共享层的特征图来执行目标分类。

                                                                        

 (a) 是在 PASCAL VOC 2007测试集上的检测结果示例。(b) 目标定位和 (c) 目标分类的建议注意力图示例。目标定位的注意力图是在整个图像区域上激活的,而目标分类的注意力图是在图像的一部分上激活的。

       然后,我们将目标分类和目标定位中具有各自语义的层次进行分离,使用乘以目标定位注意力图的特征在目标定位语义层内执行目标定位。以类似的方式,使用乘以目标分类注意力图的特征在目标分类语义层内执行目标分类。结果表明,该方法提高了目标检测性能。

       本文的其余部分组织如下:第二节描述了所提出的网络,第三节对所提出的目标检测网络进行了实验验证,并在第四节得出了结论。

二、提出的建议方法

       图2展示了建议的目标检测网络的概述。如图所示,当给定输入图像时,特征图在主干网络的较低语义层中进行编码。利用主干网络得到的浅层低语义特征图,在图2的注意力网络部分生成了两个任务(目标分类和目标定位)的两个注意力图。接下来,两个注意力图与特征图相乘。利用两张特征图,在层分离部分分别进行了目标分类和目标定位。主干网络有两个独立的语义层,并且他们的结构相同。在本文中,我们使用的主干网络是ResNet-101。为了实现目标分类和目标定位,使用ResNet-101的Conv1~Conv4和Conv5分别作为较少的语义层和语义层。以下各节给出了每个部分的详细说明。

2.1、注意力网络部分

       在这一节中,我们详细描述了两个任务的注意力网络。在第一步中,基于ResNet-101 Conv4最后一块的特征图,优先在目标定位注意力网络中生成用于目标定位的注意力图。更具体地说,目标定位注意力网络由三个1x1卷积运算组成,其中两个是2048个channels,最后一个channel是1。最后,应用Sigmoid激活函数生成目标定位的注意力图。

       为了使目标定位的注意力图聚焦于目标的整个区域,我们采用了1个通道二值分割图。1用于目标的像素,否则为0。利用二值分割图,在有监督的人工神经网络中训练目标定位注意网络。用于目标定位的注意图简单地是在ResNet-101的Conv4的最后一个块上逐个通道地多路叠加。我们将乘以目标定位注意力图的特征图称为目标区域感知特征。

      下一步,将目标区域感知特征送入目标分类注意力网络。这里需要注意,目标分类注意力网络的结构与目标定位的注意力网络相同。因此,通过关注目标分类最具辨别性的对象部分来生成用于目标分类的注意力图。用于目标分类的注意力图还被逐个通道地乘以ResNet-101的最后一个块Conv4。我们将乘以目标分类注意力图的特征图表示为目标部分区域感知特征。

2.2、用于两个任务的分层部件

       如图2所示,在层分离部分中,利用上述两种类型的特征执行目标分类和目标定位任务(即目标区域感知特征和目标部分区域感知特征)。这里需要注意,目标区域感知特征突出显示对象,而抑制非对象(即背景)。目标区域感知特征被送入RPN,提取目标的候选感兴趣区域(ROI)。这是因为,为了提取ROI,需要整个目标区域激活特征。

       基于RPN中预测的ROI,对两种类型的特征进行ROI池化操作。最后,两个ROI池化后的特征通过两个不同的层执行两个任务。目标区域感知特征和目标部分区域感知特征中的ROI集合特征分别用于目标定位和目标分类。两个不同层的结构与ResNet-101的Conv5相同。但是,这些图层不共享参数。

2.3、训练目标

       在训练我们的网络时,损失函数被用作:

 

其中λ 1、λ 2和λ 3是控制损失函数的超参数,L RPNL clsL loc分别是RPN 、目标分类和目标定位的损失函数。L cls是 ( C +1) 个类别上的 softmax 交叉熵损失,即对象类和背景的数量。我们将用来学习目标的边界框位置 ( x, y, w, h )的smothed L1 损失记作L loc。在L att -loc , sigmoid 交叉熵损失用于制作目标定位的注意力图以激活目标的整个区域。我们简单地在方程中设置λ 1 = λ 2 = λ 3 = 1 ,并通过反向传播共同学习提议的网络。

三、实验

3.1、实验装置 

       在实验中,我们在三个公开可用的数据集(PASCAL VOC 2007, VOC 2012 和MS COCO)上对所提出的目标检测网络进行了评估。这些数据集包含可在一般环境中看到的图像,它们是用于衡量目标检测性能的公认的数据集。具体地说,在VOC 2007[13]和VOC 2012中,他们有20个对象类别。

      然而,由于VOC 2007和VOC 2012缺少实例分割标注的数据,我们额外使用了具有Pascal VOC实例分割的标注文件。在MS Coco中,它有80个对象类别。它有完整的边界框注释和实例分割注释。在VOC 2007和VOC 2012中,我们采用平均平均精度(MAP)来比较它们的性能,随后,在MS COCO中,我们按照定义报告了目标上的AP。当重叠阈值为0.5时(即AP 50),我们还评估了AP在小、中、大对象(即APS、APM和APL)上的应用。我们使用骨干网络作为ResNet-101。 

3.2、关于PASCAL VOC的结果

       我们首先使用VOC 2007和VOC 2012的训练和验证集(Trainval)来训练没有注意力网络部分的建议网络,然后使用注意力网络部分微调建议的网络。所有使用Pascal VOC的测试都是使用VOC 2007测试集进行的。

       表1 VOC 2007 测试集的结果 。所有方法都在 VOC 2007 trainval 和 VOC 2012 trainval 的联合上训练。前五种方法的骨干网络是 VGG16 ,后四种方法是 ResNet-101 。

       表1显示了建议方法的结果。我们比较了最先进的目标检测网络[6,7,9,12,16,22],如表1所示,所提出的方法的性能为80.1 MAP,比以ResNet-101为主干的R-FCN[7]高0.6MAP。通过生成注意力图以根据两个任务聚焦不同的区域并分离语义层,提高了对象检测性能。

       接下来,我们进行了消融研究,以证明图2中注意力网络部分和层分离部分的有效性。如表2所示。我们比较了 Faster R-CNN 。我们重新实现了Faster R-CNN ,它没有注意力网络部分和层分离部分。如表2所示,当只有层分离部分时,性能为79.1 mAP。与Faster R-CNN 相比,它提高了 2.7 mAP和 1.9 mAP 与重新实现的结果相比。当额外引入注意力网络部分时,性能为 80.1 mAP,这是 1.0 mAP 的额外改进。通过分离层来执行这两个任务,性能得到了提高。此外,注意力网络通过根据两个任务强调区域来提高性能。

                                      

        VOC 2007 测试集的消融研究 。所有方法都在 VOC 2007 trainval 和 VOC 2012 trainval 的联合上训练。'att' 和 'split' 分别表示两个任务(目标分类和目标定位)的注意力网络部分和层分离部分。

        我们还可视化了两个任务的检测结果和注意力图。如图3所示. 如图所示,由于目标定位的注意力网络是通过监督方式学习的,目标定位的注意力图在物体的整个区域上被激活。因此,目标区域感知特征可以突出目标区域并抑制背景区域。此外,由于用于目标定位的注意力图过滤了特征以聚焦目标区域,因此用于目标分类的注意力图可以聚焦于目标的部分。有趣的是,目标分类的注意力图集中在最敏感的目标部分(例如靠近动物的头部)。它验证了目标部分区域感知特征可以突出显示最具辨别力的部分。

VOC 2007测试集上检测结果的可视化,用于目标定位和目标分类的注意力图。为了显示结果,所有图形都被调整为相同的大小。

3.3、MS COCO 的结果

       为了展示所提出的目标检测网络的有效性,我们还对 MS COCO 数据集进行了研究。所有模型都在训练集和验证图像子集 ( trainval35k )的联合上进行了训练。我们评估了 COCO minival 上的性能表3显示了检测结果。由于我们提出的方法是两阶段目标检测网络,我们与最先进的两阶段目标检测网络进行了比较,Faster R-CNN 和 R-FCN。如表3所示,所提出的方法实现了 36.2 AP。它分别比 Faster R-CNN 和 R-FCN 高 4.6 AP 和 1.8 AP。所有指标(即 AP 50、 AP S、AP M, 和 AP L ) 至少提高了 0.8 个点。它还验证了所提出的目标检测网络提高了整体物体检测精度。

                                         

                              MS COCO minival 的结果 。所有方法都在 trainval35k 上训练。

四、结论

        在本文中,我们提出了一种新的目标检测网络,考虑到目标分类和目标定位的明显差异。我们指出目标分类侧重于判别部分,目标定位侧重于整个目标区域。因此,我们引入了注意力网络来生成两个特定于任务的注意力图。每两个注意力图相乘的特征被输入到层分离部分,并执行两个任务。因此,通过考虑两个任务属性,提出的方法对每一层进行了有效的编码。实验结果证实,所提出的方法优于最先进的方法。

 

 

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值