ATTENTIVE LAYER SEPARATION FOR OBJECT CLASSIFICATION AND OBJECT LOCALIZATION IN OBJECT DETECTION

最新推荐文章于 2024-09-12 23:40:25 发布

pepsi_w

最新推荐文章于 2024-09-12 23:40:25 发布

阅读量690

点赞数

分类专栏：论文文章标签：目标检测深度学习计算机视觉

本文链接：https://blog.csdn.net/wangyumei0916/article/details/126770854

版权

论文专栏收录该内容

39 篇文章 3 订阅

订阅专栏

目标检测中目标定位和目标分类的注意力层分离

原文链接：Attentive Layer Separation for Object Classification and Object Localization in Object Detection | IEEE Conference Publication | IEEE Xplore

文章概述

目标检测主要包括目标定位和目标分类两个部分，之前基于深度学习的目标检测是通过同一网络生成的feature map来实现。但目标分类主要是通过包括目标那部分的feature map，而目标检测则需要整个区域的feature map。作者提出一种新的目标检测网络，来实现这两个不同的任务。该模型主要包括attention network（产生不同任务的feature map）和分离层（分别判断两个任务）。

介绍

无论是基于一个阶段（YOLO、SSD）还是两个阶段（Fast R-CNN、Faster R-CNN）的目标检测网络，目标定位和目标分类都是使用同一网络产生特征图。但这两种任务各自的关注点是不同的，所以作者提出考虑了这两个任务不同特点的物体检测网络。

在最后一个共享层输出特征图后，部署两个注意力网络得到两种类型的特征图分别用于目标定位和目标分类。如下图所示，b部分是用于目标定位的注意力注意力图，c部分是用于目标分类的注意力图，可以看出前者更多的是注意于整个物体（与背景之间相区别），后者则是更加注意于物体内部的内容。

方法

整体网络架构如下图所示，在同一网络输出特征图后，注意力网络部分分别产生用于目标定位和目标分类的两个注意力图，并与原始feature map相乘，输入到层分离部分，分别进行分类任务和定位任务。

Attention network part

在该部分中，基于ResNet-101 conv4输出的最后一个特征图，首先在目标定位注意力网络中生成用于目标定位的注意力图，该网络由3个1*1的卷积层和一个sigmoid激活函数组成。为了使目标定位的注意力图聚焦于目标的整个区域，采用了1通道二值分割图。用目标定位的注意力图与ResNet-101 conv4输出的最后一个特征图逐通道相乘，得到的特征图称为目标区域感知特征。

接下来，将目标区域感知特征送入目标分类注意力网络（该网络与目标定位注意力网络相同），同样与ResNet-101 conv4输出的最后一个特征图逐通道相乘，得到的特征图称为目标部分区域感知特征。

Layer separation part for two tasks

在该部分中，分别对目标区域感知特征和目标部分区域感知特征进行定位和分类任务。需要注意的是，目标区域感知特征突出了物体，而抑制了非物体（即背景）。目标区域感知特征被送入RPN，提取目标的候选感兴趣区域(ROI)。这是因为，为了提取ROI，需要整个目标区域激活特征。

基于RPN中预测的ROI，对两种类型的特征进行ROI池化。最后，通过两个不同的层执行两个任务，两个不同层的结构与ResNet-101的Conv5相同（意思是ROI池化后的两个层也是一个CNN？那为啥最后还有进入一个Conv5），但是，这些图层不共享参数。

训练目标

该模型的损失函数如下：

其中λ 1、λ 2和λ 3是控制损失函数的超参数，L RPN、L cls和L loc分别是RPN 、目标分类和目标定位的损失函数。L cls是 ( C +1) 个类别上的 softmax 交叉熵损失。将用来学习目标的边界框位置 ( x, y, w, h )的smothed L1 损失记作L loc。在L att -loc , sigmoid 交叉熵损失用于制作目标定位的注意力图以激活目标的整个区域。