基于深度卷积神经网络的目标检测研究综述

最新推荐文章于 2024-04-22 12:03:33 发布

Dr4gonfly

最新推荐文章于 2024-04-22 12:03:33 发布

阅读量1.4k

点赞数 1

文章标签：神经网络深度学习

原文链接：www.cnki.net

版权

深度卷积神经网络概述
　卷积神经网络是一种常用的深度学习网络框架。1959年，Hubel＆ Wiesel发现视觉系统中的可视皮层处理信息是分级处理的。20世纪90年代，LeCun 等人建立了 CNN的现代结构，并对其进行了改进。他们设计了一种可以对手写数字进行分类的 LeNet-5网络。与其他神经网络相同，也能使用反向传播算法对数据进行训练。
卷积神经网络可以获取原始图像的有效表示，这使得它能够通过很少的预处理直接从原始像素识别视觉之上的规则。但是，训练数据的不足限制了计算机的计算能力，从而制约了 LeNet-5在处理复杂问题方面的能力。之后，设计了多种方法来克服卷积神经网络训练深度的困难。其中 AlexNet框架的提出促进了图像识别领域的发展，该框架类似于 LeNet-5，但层次结构更深。同时使用了非线性激活函数 Relu与Dropout方法，取得了卓越的效果。
AlexNet 之后，ZFNet， VGGNet，GoogleNet和 ResNet等方法相继被提出。从结构上讲，CNN 发展的一个方向是增加层数。通过增加深度，可以利用增加的非线性得到目标函数的近似结构，同时得到更好的特征。然而，这也使网络的整体复杂性和优化难度增加，并且会产生过度拟合现象。
自从2012年以来，多种改进CNN 的方法被提出。ZFNet对AlexNet的改进首先通过将第一层的卷积核尺寸从11x11降为7x7，同时将卷积时的步长从４降至２。这样扩张中间的卷积层可以获取到更多的信息。VGGNet将网络的深度扩展到了19层，并且每个卷积层使用了３×３这种小尺寸的卷积核，结果证明深度对网络性能有着重要影响。GoogleNet同时增加了网络的宽度与深度，相比于更窄更浅的网络，在计算量没有增加的同时，网络性能明显强。
基于Two-stage的检测模型
1.R-CNN(Convolutional Neural Networks)
R-CNN不仅能够提高候选边界框质量，还能提取高级特征，其工作可以分为三个阶段：生成候选区域、基于ＣＮＮ的特征提取和分类与定位。 R-CNN 采用选择搜索为每个图片产生２ｋ个区域提议，选择性搜索方法依赖于简单的自下而上的分组和显著性提示，从而快速提供任意大小的更准确的候选框，并有效减少了搜索空间。在分类上，R-CNN 使用区域提议进行评分，然后通过边界框回归调整评分区域，并用非极大值抑制进行过滤以产生用于保留目标位置的最终边界框。流程图如图所示。

尽管 R-CNN 在准确程度上相比于传统方法有所提高，并且将CNN 应用于实际目标检测中具有重要意义，但是仍然存在一些缺点。
（１）全连接层的存在使得输入图像的大小固定，直接导致每个评估区域的整个 CNN都需要重新计算，花费大量的测试时间；
（２）R-CNN 的训练是分为多阶段完成的。首先，对提议的卷积网络进行了微调。然后，将通过微调学习的softmax分类器替换为SVM。最后，训练边界框回归器；
（３）训练阶段时间长，占用空间大。从不同区域提议提取并存储在磁盘上的特征占用很大的内存。
（４）尽管选择性搜索可以生成具有较高召回率的区域提议，但是获得的区域仍然存在多余的
部分，并且这个过程需要耗费很长时间。为了解决这些问题，现在已经提出了许多方法。DeepBox和 SharpMask试图重新排序或者完善提取特征前的区域提议以去除冗余信息，获得少数的有价值的建议。此外，还有一些改进可以解决定位不准确的问题。SaurabhGupta等改进了具有语义丰富的图像和深度特征的RGB-D图像的目标检测。目标检测器和超像素分类框架的结合在语义场景分割任务上取得了可喜的成果。
2.SPP-net
为了解决因为目标比例发生变化造成的目标丢失或失真问题，HE等人考虑到空间金字塔匹
配（SPM）的理论，并提出了一种名为 SPP-net的新型 CNN 体系结构。SPM 需要更精细的尺度才能将图像划分为多个部分，并将量化的局部特征聚合为中级表示形式。
目标检测中 SPP-net的结构如图２所示，与 R-CNN 不同，目标检测中SPP-net重复使用了第五层卷积层（Conv5）的特征图，将任意大小的区域提议投影成固定长度的特征向量。这些特征图的可重复使用的可行性不仅涉及局部响应的增强，而且与其空间位置也有关系。SPP-net不仅可以通过估计不同区域提议的大小来获得更好的结果，而且还可以通过共享不同区域之间的 SPP 层，提前计算成本来提高测试期间的效率。
3.Faster-R-CNN
在目标检测中的特征提取和分类上，FastR-CNN 已经很好地解决了很多问题，但是最新的目
标检测网络仍然依赖于选择性搜索算法和Edgebox来生成候选区域。区域提议的计算也影响效率的提高。为了解决这个·问题，Ren等人引入了附加的区域提议网络（Region ProposalNetwork，RPN），网络通过与检测网络共享全卷积特征，以几乎无代价的方式进行工作。区域提议网络是通过全卷积网络实现的，该网络具有同时预测每个位置上的目标边界和出现概率的能力。类似于，区域提议网络将任意大小的图像生成一组矩形目标建议。区域提议网络在特定的卷积层上运行，与之前的层共享目标检测网络。
FastR-CNN 的作用下，基于区域提议的 CNN体系结构可以以端到端的方式训练。此外，在 PASCALVOC2007上，最新的目标检测精度，可以在 GPU上达到5FPS（frame/s）的帧率。但是，更换训练算法非常耗时，并且区域提议网络会生成类似于目标的区域，而不是目标实例，并且不擅长处理极端比例或形状的目标。
4.R-FCN
根据感兴趣区域池化层划分，用于目标检测的流行的深度网络由两个子网络组成：共享的完全卷积子网（独立于感兴趣区域）和不共享的感兴趣区域子网。目前最先进的图像分类网络，
例如残差网络（ResNets）和 GoogleNets，都是完全卷积的。为了适应这些架构，构建没有感兴趣区域子网的完全卷积目标检测网络，然而事实证明这种解决方案效果并不好。是因为在图像分类中，图像中的一个目标的移动对分类是没有影响的，但是在候选区域中，目标的任何移动在目标检测中都是意义重大的。将感兴趣区域手动接入卷积层中会解决平移不变形问题，但是会影响其他区域。因此，Li等人提出了一种基于区域的全卷积网络（R-FCN）。
与 FastR-CNN 不同的是，对于每一个类别，R-FCN 的最后一个卷积层会生成ｋ２个具有固定Ｋ×Ｋ网格的位置敏感得分图，然后添加一个位置敏感感兴趣区域层进行聚合。最后，在每个感兴趣区域中，将ｋ个位置敏感得分取平均，生成C+1维矢量，并计算跨类别的Softmax响应。另外附加了一个4k2-d的卷积转换层，获取与类无关的边界框。借助 R-FCN 可以通过共享几乎所有层来采用更强大的分类网络实现全卷积架构中的目标检测。在 PASCALVOC 和 MicrosoftCOCO数据集上均获得了最好的结果，测试速度为每张图像170ms。
基于one-stage的模型
1.YOLO
Redmon等人提出了一个名为 YOLOv1的框架，该框架利用最上层的整个特征图来预测多个类别和计算边界框的置信度。YOLOv1 的基本思想如图６所示，YOLOv1将输入图像划分为Ｓ×Ｓ网格，每个网格单元负责预测以该网格单元为中心的目标的边界框以及其对应的置信度分数。其中置信度表示存在目标的可能性并显示其预测的置信度。与此同时，无论边界框的数量为多少，都会在每个网格单元中预测Ｃ个条件类概率。
在 YOLOv1 的基础上，一种改进的版本YOLOv2被提出，YOLOv2提出了一个新的拥有１９个卷积层和５个池化层的分类主干网络，即Darknet-19，并采用了更强大的深度卷积ImageNet主干框架，输入图片的分辨率由原来的224x224直接设置为448x448，这使得学习到的权重对于获取微小信息更加敏感。除此之外，YOLOv2借鉴 FastR-CNN 中设定先验框的策略，使用全卷积网络，用 K-means聚类算法获取先验框的宽和高，并通过预测偏移量来降低网络训练难度。最后与批归一化、多尺度处理技术一起形成训练网络。作为 YOLOv2 的改进版本YOLOv3，提出了更深入，更强大特征提取网络 Darknet-53。为了适应包含许多重叠标签的复杂数据集，ＹYOLOv3使用多标签分类。在对边界框进行预测时，YOLOv3在３个不同比例的特征图进行预测，是当时速度和精度最均衡的目标检测网络。
2.SSD
YOLO 难以处理组合中的小物体，是因为对边界框的预测增加了空间约束。同时，由于多
次进行下采样，将其刻画为具有新的宽高比的目标，产生了相对粗糙的特征。针对这些问题，Liu等人提出了SSD，其灵感来自于 MultiBox、区域提议网络和多尺度表示中采用的锚点。给定一个特定的特征图，SSD利用一组具有不同长宽比和比例的默认锚点框来使边界框的输出空间离散化。为了处理不同大小的目标，将会利用多个具有不同分辨率
的特征图的预测融合网络。SSD在ＶＧＧ１６网络末端添加了几个功能层，这些功能层用于预测具
有不同比例和纵横比及其相关置信度的默认框的偏移量。最终检测结果是通过在多尺度边界框上通过非极大值抑制获得的。SSD 在 PASCALVOC和 COO 的准确性方面明显优于 FastR-CNN，并且速度提高了三倍。SSD300（输入图像尺寸为300×300）以59FPS运行，相比于 YOLO更加准确和高效。针对ＳＳＤ不善于处理小目标的问题，可以通过采用更好的特征提取网络主干（例如ResNet１０１），添加反卷积层以引入额外的大规模上下文和设计更好的网络结构。SSD与 YOLO 在结构上的不同在于，SSD 的特征是从不同的卷积层提取出来，进行组合再回归和分类，而 YOLO 只有一层，在 YOLO 之后的版本中也借鉴了SSD的这种多尺度的思想。SSD网络中的预选框的大小和形状不能直接通过学习获得，需要通过手动设置。而网络中的每一层使用的预选框大小和形状都不一样，调试过程依赖经验，除此之外，检测靠近彼此的多个小目标的问题仍然没有解决。SSD 使用低级特征检测小目标，但是低级特征卷积层数少，存在特征提取不充分的问题，在理论上还有很大的提升空间。
它们的主要区别：
1.one-stage网络速度要快很多
2.one-stage网络的准确性要比two-stage网络要低
为什么one-stage网络速度要快很多？
首先来看第一点这个好理解，one-stage网络生成的ancor框只是一个逻辑结构，或者只是一个数据块，只需要对这个数据块进行分类和回归就可以，不会像two-stage网络那样，生成的 ancor框会映射到feature map的区域（rcnn除外），然后将该区域重新输入到全连接层进行分类和回归，每个ancor映射的区域都要进行这样的分类和回归，所以它非常耗时。
one-stage网络最终学习的ancor有很多，但是只有少数ancor对最终网络的学习是有利的，而大部分ancor对最终网络的学习都是不利的，这部分的ancor很大程度上影响了整个网络的学习，拉低了整体的准确率；而two-stage网络最终学习的ancor虽然不多，但是背景ancor也就是对网络学习不利的ancor也不会特别多，它虽然也能影响整体的准确率，但是肯定没有one-stage影响得那么严重，所以它的准确率比one-stage肯定要高

基于Anchor-free的检测模型
虽然基于 Anchor的目标检测模型（one-stage模型和two-stage模型）在效率和精度上有很大的提升，但是自身的局限性也阻碍了模型的优化创新。大多数预设的锚点是负样本，在训练过程中会导致正样本和负样本的失衡；为了实现较高的查全率，需要设置大量密集的锚点候选框，为此造成巨大的计算成本和内存需求开销；预设的锚框是人为设置的，其比例和宽高比对数据集比较敏感，很大程度上会影响检测性能。为了解决这个问题，最近提出一些 Anchor-free检测模型。
1.CornerNet
CornerNet是一种新颖的 Anchor-free网络，使用Hourglass网络作为主干网络，后面连接两个预测模型，分别预测左上和右下角点。在特征图的每个位置上都可以预测角度偏移、对嵌入和类热图。通过类热图可以计算出现拐角的可能性，并使用拐角偏移量来预测拐角位置。CornerNet在 MSCOCO 数据集上获得了显着改进。
2.FSAF
为了让位于图像中的每个目标都能自助选择最合适的特征层，ＦＳＡＦ（ＦｅａｔｕｒｅＳｅｌｅｃｔｉｖｅＡｎｃｈｏｒ－Ｆｒｅｅ）在特征层中不设置ａｎｃｈｏｒ，实现了ａｎｃｈｏｒ－ｆｒｅｅ．在训练过程中，ＦＳＡＦ根据损失，自动选择最好的特征层，并将每个对象动态分配给
最合适的特征层，在这个特征层进行后续的回归和预测。在预测阶段，ＦＳＡＦ可以独立预测，也可
以与基于锚点的方法相结合。
3.ExtremeNet
ＥｘｔｒｅｍｅＮｅｔ是在ＣｏｒｎｅｒＮｅｔ上的改进，不同于ＣｏｒＮｅｔ，ＥｘｔｒｅｍｅＮｅｔ的检测目标是４个极值点（最左点、最右点、最上点和最下点），而不是检测目标的左上点和右下点，这种做法避免了因为强行使用矩形包围框包围物体带来的问题。当检测到极值点之后，利用匹配算法，将所有极值点进行组合，通过验证组合中是否存在中心极值点，对所有组合示例进行筛选。该方法速度不是很快，但是标注简单，在此基础上可以进行更多的改进。
4.FCOS
ＦＣＯＳ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＯｎｅ－Ｓｔａｇｅ）是一个基于全卷积的检测网络，它利用一个新的分支“ｃｅｎｔｅｒ－ｎｅｓｓ”来预测一个像素与对应对框中心的
偏差，所得到的分数用于降低低质量检测框的权重，最后通过ＮＭＳ（Ｎｏｎ－ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）将接测结果进行融合。ＦＣＯＳ可以将语义分割和目标检测任务结合，除此之外，还可以对模型进行小幅度改造（例如，关键点检测）以应用于其他检索任务。
5.CenterNet
CenterNet结合了基于中心的方法（中心点）和基于角点的方法（左上角点和右下角点）的思想，使网络花费小的代价便能感知物体内部信息，从而消除误检框。其作用过程为，首先通过成对的角预测边界框，然后将角点的位置映射到输入图片的对应位置，最优判断哪两个角点属于同一物体，以便形成一个检测框。该方法可以移植到其他锚点或者 Anchor-free网络上。
通用的目标检测数据集
（１）Pascal视觉挑战数据集
Pascal视觉挑战是早起计算机视觉中最重要的竞赛之一。Pascal－VOC 的两个版本：VOC07和 VOC12 主要用于对象检测。其中VOC07是包含20类图片的中等数据集，分为三部分，分别使用2501，2510和5011张图像进行训练、验证和测试。VOC12与VOC07包含相同类别的图像，分别使用5717，5823和10991张图像进行训练、验证和测试近年来，随着一些较大数据集的发布，VOC逐渐被取代。
（２）MSCOCO是具有80个类别的大规模数据集，分别使用118287，5000和40670图像进行训练，验证和测试。
（３）OpenImages是一个包含920万张图像的数据集，并带有图像级标签、对象边界框和视觉关系。OpenImagesＶ５在1.9M图像上总共包含600万个对象类别的1600万个边界框，这使其成为具有对象位置注释的最大的现有数据集。该数据集中的框是由专业注释者手工绘制的，以确保准确性和一致性，并且图像多样化，并且大多数包含有多个对象的复杂场景。
（４）ImageNet包含120 万个高分辨率图像，是一个具有200个类别的大型数据集，数据规模大，对象范围广，这使得使用大型训练数据训练深度模型成为可能。
评估指标
定位和分类是目标检测的两个重要任务，在物体检测评估指标下，检测准确性和定位精度是
用于评估检测准确性常用的两个标准。对于定位精度，IoU 通过判断预测边界框及其对应的分配地面真值判断回归质量。对于检测准确性，常用均值平均精度（mAP）作为评估指标。