ATTENTIVE LAYER SEPARATION FOR OBJECT CLASSIFICATION AND OBJECT LOCALIZATION IN OBJECT DETECTION

目标检测中目标定位和目标分类的注意力层分离

原文链接:Attentive Layer Separation for Object Classification and Object Localization in Object Detection | IEEE Conference Publication | IEEE Xplore

文章概述

        目标检测主要包括目标定位和目标分类两个部分,之前基于深度学习的目标检测是通过同一网络生成的feature map来实现。但目标分类主要是通过包括目标那部分的feature map,而目标检测则需要整个区域的feature map。作者提出一种新的目标检测网络,来实现这两个不同的任务。该模型主要包括attention network(产生不同任务的feature map)和分离层(分别判断两个任务)。

介绍

        无论是基于一个阶段(YOLO、SSD)还是两个阶段(Fast R-CNN、Faster R-CNN)的目标检测网络,目标定位和目标分类都是使用同一网络产生特征图。但这两种任务各自的关注点是不同的,所以作者提出考虑了这两个任务不同特点的物体检测网络。

        在最后一个共享层输出特征图后,部署两个注意力网络得到两种类型的特征图分别用于目标定位和目标分类。如下图所示,b部分是用于目标定位的注意力注意力图,c部分是用于目标分类的注意力图,可以看出前者更多的是注意于整个物体(与背景之间相区别),后者则是更加注意于物体内部的内容。

方法

        整体网络架构如下图所示,在同一网络输出特征图后,注意力网络部分分别产生用于目标定位和目标分类的两个注意力图,并与原始feature map相乘,输入到层分离部分,分别进行分类任务和定位任务。

Attention network part 

        在该部分中,基于ResNet-101 conv4输出的最后一个特征图,首先在目标定位注意力网络中生成用于目标定位的注意力图,该网络由3个1*1的卷积层和一个sigmoid激活函数组成。为了使目标定位的注意力图聚焦于目标的整个区域,采用了1通道二值分割图。用目标定位的注意力图与ResNet-101 conv4输出的最后一个特征图逐通道相乘,得到的特征图称为目标区域感知特征。

        接下来,将目标区域感知特征送入目标分类注意力网络(该网络与目标定位注意力网络相同),同样与ResNet-101 conv4输出的最后一个特征图逐通道相乘,得到的特征图称为目标部分区域感知特征。

Layer separation part for two tasks 

        在该部分中,分别对目标区域感知特征和目标部分区域感知特征进行定位和分类任务。需要注意的是,目标区域感知特征突出了物体,而抑制了非物体(即背景)。目标区域感知特征被送入RPN,提取目标的候选感兴趣区域(ROI)。这是因为,为了提取ROI,需要整个目标区域激活特征。

        基于RPN中预测的ROI,对两种类型的特征进行ROI池化。最后,通过两个不同的层执行两个任务,两个不同层的结构与ResNet-101的Conv5相同(意思是ROI池化后的两个层也是一个CNN?那为啥最后还有进入一个Conv5),但是,这些图层不共享参数。

训练目标

        该模型的损失函数如下:

其中λ 1、λ 2和λ 3是控制损失函数的超参数,L RPN、L cls和L loc分别是RPN 、目标分类和目标定位的损失函数。L cls是 ( C +1) 个类别上的 softmax 交叉熵损失。将用来学习目标的边界框位置 ( x, y, w, h )的smothed L1 损失记作L loc。在L att -loc , sigmoid 交叉熵损失用于制作目标定位的注意力图以激活目标的整个区域。

实验

使用PASCAL VOC数据集

        我们首先使用VOC 2007和VOC 2012的训练和验证集(Trainval)来训练作者提出的网络(去掉注意力网络部分),然后使用注意力网络进行微调。所有使用Pascal VOC的测试都是使用VOC 2007测试集进行的。 结果如下:

        作者提出的方法性能为80.1 MAP,比以ResNet-101为主干的R-FCN高0.6MAP。通过生成注意力图以根据两个任务聚焦不同的区域并分离语义层,提高了对象检测性能。

        进行消融实验,结果如下表所示。可以看出注意力网络部分和分层部分都提高了模型的性能。

        这里可视化了两个任务的检测结果和注意力图 ,由于目标定位的注意图过滤了特征以聚焦目标区域,因此目标分类的注意图可以聚焦于目标的部分。物体分类的注意图集中在最敏感的物体部分(例如动物头部附近)。验证了物体部分区域感知特征能够突出最具区分性的部分。

 

 MS COCO数据集

        所有模型都在训练集和验证图像子集 ( trainval35k )的联合上进行了训练,结果如下表:本文提出的模型与同样二阶段网络对比,所有指标至少提高了 0.8 个点。

总结 

        本文针对目标分类和定位的不同,提出了一种新的目标检测网络。作者指出,目标分类侧重于区分部分,目标定位侧重于整个目标区域。因此,作者引入了注意力网络来生成两个特定于任务的注意力图。实验结果表明,该方法优于目前最先进的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值