目标检测

最新推荐文章于 2024-07-23 10:43:35 发布

WXX_DLUT

最新推荐文章于 2024-07-23 10:43:35 发布

阅读量486

点赞数

分类专栏：图像处理

图像处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

RCNN

https://blog.csdn.net/shenxiaolu1984/article/details/51036677

Region CNN(RCNN)可以说是利用深度学习进行目标检测的开山之作。

简单来说，RCNN使用以下四步实现目标检测：
a. 在图像中确定约1000-2000个候选框
b. 对于每个候选框内图像块，使用深度网络提取特征
c. 对候选框中提取出的特征，送入每一类的SVM分类器判别是否属于该类
d. 对于属于某一特征的候选框，用回归器精细修正候选框位置

候选区域生成

使用了Selective Search方法从一张图像生成约2000-3000个候选区域。基本思路如下：
- 使用一种过分割手段，将图像分割成小区域
- 查看现有小区域，合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置
- 输出所有曾经存在过的区域，所谓候选区域

合并规则

优先合并以下四种区域：
- 颜色（颜色直方图）相近的
- 纹理（梯度直方图）相近的
- 合并后总面积小的
- 合并后，总面积在其BBOX中所占比例大的

第三条，保证合并操作的尺度较为均匀，避免一个大区域陆续“吃掉”其他小区域。

第四条，保证合并后形状规则。

特征提取

预处理

使用深度网络提取特征之前，首先把候选区域归一化成同一尺寸227×227。
此处有一些细节可做变化：外扩的尺寸大小，形变时是否保持原比例，对框外区域直接截取还是补灰。会轻微影响性能。

调优训练

网络结构
网络为ImageNet，最后一层换成4096->21的全连接网络。
学习率0.001，每一个batch包含32个正样本（属于20类）和96个背景。

训练数据
使用PASCAL VOC 2007的训练集，输入一张图片，输出21维的类别标号，表示20类+背景。
考察一个候选框和当前图像上所有标定框重叠面积最大的一个。如果重叠比例大于0.5，则认为此候选框为此标定的类别；否则认为此候选框为背景。

类别判断

分类器
对每一类目标，使用一个线性SVM二类分类器进行判别。输入为深度网络输出的21维特征，输出是否属于此类。
由于负样本很多，使用hard negative mining方法。
正样本
本类的真值标定框。
负样本
考察每一个候选框，如果和本类所有标定框的重叠都小于0.3，认定其为负样本

位置精修

目标检测问题的衡量标准是重叠面积：许多看似准确的检测结果，往往因为候选框不够准确，重叠面积很小。故需要一个位置精修步骤。
回归器
对每一类目标，使用一个线性脊回归器进行精修。正则项λ=10000λ=10000。
输入为深度网络pool5层的4096维特征，输出为xy方向的缩放和平移。
训练样本
判定为本类的候选框中，和真值重叠面积大于0.6的候选框。

Fast RCNN

https://blog.csdn.net/shenxiaolu1984/article/details/51036677

Fast RCNN方法解决了RCNN方法三个问题：

问题一：测试时速度慢
RCNN一张图像内候选框之间大量重叠，提取特征操作冗余。
本文将整张图像归一化后直接送入深度网络。在邻接时，才加入候选框信息，在末尾的少数几层处理每个候选框。

问题二：训练时速度慢
原因同上。
在训练时，本文先将一张图像送入网络，紧接着送入从这幅图像上提取出的候选区域。这些候选区域的前几层特征不需要再重复计算。

问题三：训练所需空间大
RCNN中独立的分类器和回归器需要大量特征作为训练样本。
本文把类别判断和位置精调统一用深度网络实现，不再需要额外存储。

特征提取网络

图像归一化为224×224直接送入网络。

roi_pool层的测试(forward)

roi_pool层将每个候选区域均匀分成M×N块，对每块进行max pooling。将特征图上大小不一的候选区域转变为大小统一的数据，送入下一层。
这里写图片描述

结论：

- 网络末端同步训练的分类和位置调整，提升准确度
- 使用多尺度的图像金字塔，性能几乎没有提高
- 倍增训练数据，能够有2%-3%的准确度提升
- 网络直接输出各类概率(softmax)，比SVM分类器性能略好
- 更多候选窗不能提升性能

Fater RCNN

https://blog.csdn.net/shenxiaolu1984/article/details/51152614

思想

从RCNN到fast RCNN，再到本文的faster RCNN，目标检测的四个基本步骤（候选区域生成，特征提取，分类，位置精修）终于被统一到一个深度网络框架之内。所有计算没有重复，完全在GPU中完成，大大提高了运行速度。
这里写图片描述

faster RCNN可以简单地看做“区域生成网络+fast RCNN“的系统，用区域生成网络代替fast RCNN中的Selective Search方法。本篇论文着重解决了这个系统中的三个问题：
1. 如何设计区域生成网络
2. 如何训练区域生成网络
3. 如何让区域生成网络和fast RCNN网络共享特征提取网络