阅读笔记：Gated Bi-directional CNN for Object Detection

最新推荐文章于 2024-07-28 18:43:21 发布

douhua4335

最新推荐文章于 2024-07-28 18:43:21 发布

阅读量3.6k

点赞数

分类专栏：深度学习文章标签：目标检测

本文链接：https://blog.csdn.net/douhua4335/article/details/71191398

版权

该博客介绍了Gated Bi-directional CNN (GBD-Net) 在目标检测中的应用，旨在解决不同尺寸和分辨率区域的视觉线索整合问题。GBD-Net通过双向门控结构在特征间传递信息，增强局部和上下文视觉模式的相互验证。实验结果显示，GBD-Net在ImageNet、PASCAL VOC2007和Microsoft COCO数据集上提高了目标检测的准确性。

摘要由CSDN通过智能技术生成

背景

在目标检测中，不同尺寸和分辨率下的多个区域中的视觉线索对待定区域的分类具有互补作用。由此引出目标检测的一个基本问题：如何有效地整合从这些区域中得到的局部和上下文视觉线索。目前大多数的成果仅仅是将从这些区域得到的特征或分数简单结合，本文提出了一个新的双向门控CNN网络（GBD-Net），用于特征学习和特征提取时在不同支持区域的特征间传递信息。这种信息传递可以通过两个方向的卷积实现，并且可以在不同的层中进行。因此，局部和上下文视觉模式可以通过学习他们的非线性关系来彼此证实，然而他也证明对于个别样本，信息传递不总是有用的。门控功被进一步引入以控制消息传输，并且他的开和关是由额外的视觉证据控制的。

一．介绍

目标检测是一个基本的视觉问题，其中检测被视为一个待定区域的分类问题。但由于角度，姿势，遮挡，光照条件记忆背景等的变化，目标检测的难度很大。最近，因为在学习特征方面的突出能力，CNN网络被广泛应用于目标检测任务中。

在目标检测中，如果一个待定域与标准背景的交并比超过一个阈值，则记这个待定域对目标类别的分数是正的。但是，当一个待定域只与标准背景交于一部分时，就会出现很多问题：

①待定域中的视觉线索可能不足以辨别目标的类别。例如图（a）中的两幅图片，待定域中的视觉线索相似，但是其实它们属于两个类别。

②待定域的分类还受到遮挡情况的影响，而遮挡情况要从更大的周边区域来推断。

为了解决这些问题，首先就想到在待定域周围寻找上下文区域，除此之外，周围区域还提供了关于背景的上下文信息和其他周边物体来帮助检测。因此，作者设计的深度模型利用了周围区域来提升待定域的分类。

除了这些问题，CNN对输入区域的大小也有一定的限制，如果输入过大，CNN描述局部细节的能力就会弱化，而这些细节对于识别目标类别会产生巨大影响，因此，CNN将输入编码成一个固定长度的特征向量。

作者提出这个新的网络的动机之一是不同分辨率和支持区域上的特征可以彼此验证。举个例子，在局部区域上兔子耳朵的存在可以加强兔子头的存在性，而在一个更大的上下文区域中兔子上半身的存在也能加强兔子头的存在性。由此，作者提出，在多个层间不同分辨率和支持区域的特征应该能够互相传递，并以此在特征学习和特征提取时共同验证它们的存在。

更进一步，作者强调要注意上下文和局部区域之间的信息传递。这种信息不总是有用的，例如图（c）和图（d），局部信息不足以支持目标的正确分类。

对于这种情况，就需要一些额外的信息来帮助分类，由此，作者设计了一个网络，利用输入图片中区域的额外信息来自适应地控制信息地传递。

文中，作者提出了一个双向门控CNN结构（GBD-Net），这个模型能在特征学习和提取特征时自适应地建立上下文和局部视觉线索之间的联系。作者在Fast RCNN检测框架下实现这个新提出的网络，并且分别在三个数据集ImageNet,PASCAL VOC2007和Microsoft COCO上实验验证了这个网络的效果。

二．相关工作

待定域的选取。Selective search通过对语义结果按等级分组获得待定域，再用Edgebox对边界盒围出来的轮廓数量进行评估，以此判断其为目标的可能性。

目标检测方法。目前最先进的深度学习是基于RCNN目标检测方法的，它从多个互相交叠的图像区域中提取CNN特征，再用一个线性SVM作为分类器。通过在ImageNet分类数据集上进行预训练，这个网络与之前那些在PASCAL VOC和大规模ImageNet目标检测数据集上使用手工特征的滑窗方法相比，在检测精度上取得了重大进展。

CNN的学习与设计。目前的大多数工作都更关注网络结构的设计，以及它们在检测任务中的效果，例如【1-4，19】提出的更深的网络，

及对有效训练深度网络方法的探究。文中方法主要关注新的双向门控网络结构来有效地利用多尺度和多上下文的区域。作者设计的网络与上述的待定域选取，渠道，CNN层的设计及训练方法是互补的。

信息的传递与门控功能。RNN允许在特征级上传递信息，在长短期记忆网络中利用门控功能控制信息的传递。然而，这两种方法都没有被应用在对多分辨率和多上下文区域的特征提取中，这个目标价测的基本问题没能得到妥善解决。作者设计的信息传递机制和门控功能就是专门针对这个问题设置的。

三．