目标检测深度学习方法综述（一）

最新推荐文章于 2022-03-29 16:56:06 发布

shengshijieshao

最新推荐文章于 2022-03-29 16:56:06 发布

阅读量3k

点赞数 4

分类专栏：神经网络文章标签：深度学习

本文链接：https://blog.csdn.net/sun_shine56/article/details/104820784

版权

本文介绍了深度学习在目标检测领域的进展，特别是R-CNN系列（包括R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN、Cascade R-CNN）和基于目标回归的算法如YOLO，探讨了它们的工作原理、优缺点及改进。文章适合对深度学习目标检测感兴趣的读者，旨在梳理这一领域的经典模型和技术发展。

摘要由CSDN通过智能技术生成

0.前言

从去年九月份以来，我断断续续的接触并了解了深度学习中目标检测方面的知识。读了几篇论文，也尝试着跑了几个代码，对目标检测领域的深度学习方法有了大致的了解，一直准备写一篇综述性的学习报告，来总结我所学到，看到的知识点。但由于所学太过于零碎，不成体系，一直没有动手整理。直到前两天我导让我将18年之后比较典型的神经网络模型总结一哈，我这下定决心，准备将我这大半年所学到的关于深度学习目标检测的知识总结一下。事先声明：本文为个人学习笔记，里面所有内容都是站在前人基础上总结而成，欢迎志同道合的朋友一起交流。

1.时间线

在这里插入图片描述
自从2012年以来，由于计算机硬件资源的大幅提升以及LeNet、AlexNet的惊人效果，深度学习开始了新一轮的大发展。各种各样的目标检测网络模型被提出。上图按照各模型被提出的时间排序。在模型被提出之初，人们只是一味的加深网络层数，设计复杂的backbone来提高模型检测性能。后来随着大量研究者的不断努力，深度学习通用物体检测模型大致被归为以下四类：
1、基于区域建议的算法如，R-CNN、 Fast R-CNN、Faster R-CNN、Mask-RCNN等。
2、基于目标回归的检测算法，如YOLO、SSD，retinanet，EfficientDet。
3、基于搜索的目标检测与识别算法， AttentionNet，强化学习。
4、基于Anchor-free的算法，如 CornerNet，CenterNet，FCOS 等。
下一章我们首先来讲一些经典的网络结构。

2.经典网络结构

这部分大量参考了我导在课程中给我发的那个文档（我导牛逼~），然后其实我之前已经写过一个经典卷积神经网络模型简介文章。于是我将其再度编辑了一下，这里我直接放个传送门好吧。
卷积神经网络发展历史及各种卷积神经网络模型简介

3.基于区域建议的算法

基于区域建议的深度学习算法老大当属RCNN系列，包括R-CNN、 Fast R-CNN、Faster R-CNN、Mask-RCNN、Cascade R-CNN等，下面我来大致介绍一下它们。

3.1 R-CNN

3.1.1 简介

RCNN是利用深度学习进行目标检测的开山之作，相对于传统典型的Haar特征+Adaboost，Hog特征+SVM等算法准确率有了很大的提升，将PASCAL VOC 2007数据集的检测准确率从35.1%提升到了66%（mAP）

3.1.2 流程

在这里插入图片描述
（1）候选区域选择区域建议Region Proposal是一种传统的区域提取方法，基于启发式的区域提取方法，用的方法是SS（Selective Search），提取2000个候选框左右，然后再对提取的大小不同的候选框进行大小归一化（227 *227 *3），归一化后准备输入到预训练好的CNN网络
（2）CNN特征提取 R-CNN论文中使用的是AlexNet，训练数据集为ImageNet，采用预训练的方式，将最后的全连接层由4096->1000改为了4096->21的全连接层，代表输出的21维类别标号，其中20类目标类和一个背景类训练过程中在PASCAL VOC数据集上对预训练好的CNN做微调，然后使用SS方法提取候选框，再用微调后的CNN网络提取候选区域特征并保存起来，训练SVM分类器
（3）分类与边界回归有两个子步骤，一个是对前一步的输出向量进行分类（分类器需要根据特征进行训练）; 第二种是通过边界回归框回归（缩写为bbox）获得精确的区域信息。其目的是准确定位和合并完成分类的预期目标，并避免多重检测，最后通过非极大值抑制(Non-maximum suppression)输出结果

3.1.3 缺点

（1）训练步骤繁琐（微调网络+训练SVM+训练bbox）
（2）训练，测试速度都很慢，需要提取出每一个候选框再提取特征（3）训练占用空间大，提取出的特征和分类器都需要占用额外空间

3.1.4 改进点

相对于传统检测算法，首次采用深度网络进行特征提取

3.1.5 扩展

选择性搜索（Selective Search）通过基于图的图像分割方法初始化原始区域，就是将图像分割成很多很多的小块。然后使用贪心策略，计算每两个相邻的区域的相似度，然后每次合并最相似的两块，直到最终只剩下一块完整的图片。然后这其中每次产生的图像块包括合并的图像块我们都保存下来，这样就得到图像的分层表示了,然后再对每次合并的块打分，这样就可以根据分数筛选出需要个数的候选区域