目标检测概述

最新推荐文章于 2023-05-28 21:38:31 发布

bingJiaJia

最新推荐文章于 2023-05-28 21:38:31 发布

阅读量910

点赞数

分类专栏：深度学习文章标签：目标检测深度学习 rcnn yolo

本文链接：https://blog.csdn.net/bingjia103126/article/details/103609314

版权

深度学习专栏收录该内容

9 篇文章 2 订阅

订阅专栏

深度学习在视觉方面有三个重要的部分：目标分类、目标检测、目标分割。

目标分类（Object Classification）：判断图像中出现的物体属于哪一个类别。可实现：输入一副图片，输出该图片中物体类别的候选集合。

目标检测（Object Detection）:又叫物体检测或目标分类检测，包含两个问题，一是判断出现在图片上的物体属于哪一个类别；二是对该物体进行定位，定位常用的表征就是物体的边界框。可实现：输入一副图片，输出检测到的物体的类别以及位置。

目标分割（Object Segmentation）：又叫语义分割，将图片中每一个像素点进行分类。可实现：输入一副图片，输出该图片每个像素点所属的物体类别。

一、目标检测的发展

目标检测包括特征提取和边框回归，特征提取经历了一系列的演变从人工设计特征到数据驱动，边框的生成也经历了一系列的演变从滑动窗口、选择搜索到RPN网络，目标检测也都经历了从RCNN系列的两步走到YOLO的一步走的进阶。

2012年AlexNet是一个分水岭，自此CNN在特征提取、边框回归的路上不断的进化以及演变。

二、目标检测的框架

5年间目标检测的框架在不断的发展，每个系列不断变种、改进，检测精度以及检测速度不断的提高。下面针对一些经典模型进行简单的阐述，后面的文章会对经典模型进行详细介绍。

1、RCNN(Regions with CNN features)系列

R-CNN通过选择搜索算法，对输入图像提取2000个候选区域，然后在每个候选区域上进行卷积提取特征，最后对提取的特征通过SVM分类和线性回归bbox。

Fast R-CNN对输入图像通过卷积提取特征，然后在特征上通过选择搜索算法获取ROI(regions of interest)，最后对每个感兴趣的区域通过softmax进行分类和线性回归bbox。注意：相比较rcnn，采用了多任务损失，将边框回归也添加到CNN训练中。

Faster R-CNN对输入图像通过vgg或者resnet提取特征，然后通过RPN网络生成ROI，Faster R-CNN=RPN + Fast R-CNN

R-CNN、Fast R-CNN、Faster R-CNN之间的关联如下：

R-FCN（Region- based Fully Convolution Network）同样是对输入图片提取特征，然后再特征图的基础上通过RPN网络获取ROI，相对于Faster R-CNN来说变化之处是改进ROI pooling，ROI pooling是因为后面有全连接层，所有将ROI改变成固定大小，R-FCN则将每一个ROI划分成k×k个格，池化输出每个格的位置得分，再通过投票方式得到 ROI 最后的输出特征向量。

Mask R-CNN以Faster RCNN原型，增加了一个分支用于分割任务，对于Faster RCNN的每个Proposal Box都要使用FCN进行语义分割，分割任务与定位、分类任务是同时进行的。

2、YOLO(You only look once)系列

Yolo系列不同于RCNN的两步走，直接将物体分类和物体定位再一个步骤完成。Yolo V1直接在输出层回归bounding box的位置和bounding box所属类别，从而实现一步操作。

Yolo V2是在V1的基础上进行了一系列的优化、改进，主干特征网络采用darknet-19，添加了Batch Normalization极大的改善了收敛速度同时减少了对其它regularization方法的依赖，并采用高分辨率的图片进行预训练。

Yolo V3是在V2的基础上进行了一系列的优化、改进，主干特征网络采用darknet-53，大量使用残差的跳层连接，为了加强算法对小目标检测的精确度，YOLO v3中采用类似FPN的upsample和融合做法（最后融合了3个scale，其他两个scale的大小分别是26×26和52×52），在多个scale的feature map上做检测。

RCNN系列和YOLO系列会在后面的文章进行详细的分析。

3、SSD(Single Shot MultiBox Detector)

SSD从YOLO中继承了将detection转化为regression的思路，一次完成目标定位与分类，基于Faster RCNN中的Anchor，提出了相似的Prior box；加入基于特征金字塔（Pyramidal Feature Hierarchy）的检测方式，即在不同感受野的feature map上预测目标。