【目标检测】R-CNN学习笔记

最新推荐文章于 2024-04-21 15:46:09 发布

小风_

最新推荐文章于 2024-04-21 15:46:09 发布

阅读量205

点赞数

分类专栏：目标检测

本文链接：https://blog.csdn.net/qq_33952811/article/details/103366132

版权

目标检测专栏收录该内容

9 篇文章 0 订阅

订阅专栏

背景

简单的说，目标检测就是将图像中的物体进行定位然后识别。
在R-CNN之前，过去的十年间，目标识别任务主要建立在对HOG和SIFT等特征描述子的使用（OpenCV中也有相关的算法API可直接调用）
2012年AlexNet的出现使得CNN开始逆袭人生并不断发展，相关有VGG、GoogLeNet、ResNet等，OverFeat是AlexNet的衍生，用于目标检测，但是效果不佳
ImageNet上的CNN分类结果，应用到PASCAL VOC挑战的物体检测任务上需要做到什么程度，是一个问题。

在这里插入图片描述

目标定位和识别

通过连接图像分类和目标检测来解决背景写到的第四个问题
使用深度网络定位物体和在小规模的标注数据集上进行大型网络模型的训练。与图像分类不同的是检测需要定位一个图像内的许多物体。一个方法是将框定位看做是回归问题，但Szegedy等人的工作说明这种策略并没啥效果
滑动窗口探测器，R-CNN论文中提到，通过这种方法使用CNNs至少已经有20年的时间了，通常用于一些特定的种类如人脸，行人等，但是由于网络层次更深，输入图片有非常大的感受野（195×195）和步长（32×32），这使得采用滑动窗口的方法充满挑战，遂放弃使用这种方法。
借鉴滑动窗口思想，提出recognition using regions的观点，模型为：区域推荐+特征提取
识别的具体流程（如上图所示）：
1.给定一张输入图片，从图片中提取 2000 个类别独立的推荐区域(region proposals)
2.对于每个区域利用 CNN 抽取一个固定长度的特征向量
3.对每个区域利用线性SVM 进行分类
推荐区域(region proposals)的提取方法有很多：objectness、selective search、category-independen object proposals、constrained parametric min-cuts(CPMC)、multi-scale combinatorial grouping、以及Ciresan等人的方法。
而R-CNN选用的是第二种，选择性搜索（selective search）
特征抽取，R-CNN在特征提取时候，无论多少大小尺寸的图片，均统一化为227x227，这是为了与AlexNet保持兼容，变换的时候，会进行加框处理，在box周围加上固定大小的像素

训练

论文中提到一个重点，由于训练数据比较少，故采用有监督的预训练作为辅助工作，然后进行特定的调优处理，使得效果大大上升
R-CNN 采取迁移学习，提取在 ILSVRC 2012 的模型和权重进行预训练CNN，CNN十分接近krizhevsky等人的网络的性能
使用变形后的推荐区域对CNN参数进行SGD训练，替换掉了ImageNet专用的1000-way分类层，换成了一个随机初始化的21-way分类层（20类别数+1背景），而卷积部分都没有改变
R-CNN 将推荐区域与 GroundTrue 中的 box 标签相比较，如果 IoU > 0.5，说明两个对象重叠的位置比较多，于是就可以认为这个推荐区域是 Positive，否则就是 Negetive
训练策略：采用随机梯度下降算法（SGD）训练，初始学习率为 0.001，mini-batch 大小为 128